Модель генерирует белки с нужными свойствами.
Исследователи представили новый языковой ИИ-модуль под названием xTrimoPGLM , способный как понимать, так и создавать белковые последовательности, используя единый подход к обучению. Это решение предлагает принципиально новый способ работы с данными биологии — на уровне последовательностей аминокислот, как если бы это был текст на естественном языке.
Ранее существующие модели, изучавшие белки, опирались на разные методы предобучения — одни восстанавливали недостающие участки (autoencoding), другие предсказывали следующую аминокислоту (autoregressive). Однако каждая из них хорошо справлялась только с одной задачей: либо пониманием структуры белка, либо генерацией новых белков. xTrimoPGLM объединяет обе стратегии и впервые обучается на основе совместной цели, охватывая сразу оба подхода. Это позволило масштабировать модель до беспрецедентных размеров — 100 миллиардов параметров и триллиона обучающих токенов.
Результаты впечатляют: xTrimoPGLM показал лучшие результаты в 18 различных задачах по анализу белков, включая классификацию, предсказание свойств и взаимодействий. Более того, модель позволяет заглянуть в белковую структуру на атомном уровне и используется как основа для новой 3D-модели, предсказывающей структуру белка с точностью, превосходящей аналогичные инструменты на базе языковых моделей.
Но не только анализ — модель умеет и создавать. Она способна генерировать новые белки, соблюдая принципы природных последовательностей. А после дополнительного обучения на специализированных наборах данных — даже выполнять целенаправленную генерацию с заданными свойствами, что открывает путь к разработке новых лекарств и ферментов.
Вес модели и наборы данных уже опубликованы на платформе HuggingFace и доступны для исследователей, что делает xTrimoPGLM значимым вкладом в развитие белковых foundation-моделей и расширяет горизонты ИИ в биологических науках.