Точно так же, как ChatGPT создает текст, угадывая слово, которое с наибольшей вероятностью окажется в последовательности, новая модель ИИ способна производить на свет белки, не возникающие в естественной среде напрямую.
Для разработки нового флуоресцентного белка ученые взяли за основу модель ESM3. Высокомолекулярное вещество разделяет только 58% своей последовательности с существующими в природе флуоресцентными белками, говорится в работе.
ESM3 — это языковая модель, имеющая сходства с GPT-4, — мультимодальной моделью ИИ известного бота ChatGPT. Ученые обучили свою наибольшую версию на 2,78 млрд сложных высокомолекулярных веществах. Для каждого вещества они взяли сведения о последовательности, структуре и функции.
Впоследствии исследователи самопроизвольно замаскировали фрагменты данных об этих белках и попросили языковую модель предсказать недостающие элементы. Результаты эксперимента оказались действительно успешны — методы современных технологий и работа с искусственным интеллектом может значительно ускорить поиск белковых структур.