ДНК-конструктор для ИИ: система Evo 2 научилась писать геномы с нуля

ДНК-конструктор для ИИ: система Evo 2 научилась писать геномы с нуля

Универсальная грамматика природы от человека до мамонта.

image

Молекула ДНК состоит всего из четырёх "букв" - нуклеотидов A, T, C и G. Используя этот простой алфавит, природа создала всё многообразие живых организмов на Земле. Теперь учёные из Института Arc, Стэнфордского университета и компании Nvidia разработали алгоритм искусственного интеллекта Evo 2 , способный не только анализировать существующие геномы живых организмов, но и создавать новые функциональные последовательности для решения задач генетической медицины и синтетической биологии.

Информация в клетках записывается в виде длинных цепочек ДНК, образующих хромосомы. Каждый организм обладает уникальным набором генов - участков ДНК, которые содержат инструкции для производства белков. Между участками, кодирующими белки, располагаются особые регуляторные области. Долгое время их считали "мусорной ДНК", но сейчас известно, что именно эти фрагменты управляют работой генов и часто связаны с развитием различных заболеваний. Именно поэтому их изучение стало одной из ключевых задач для нового алгоритма.

Evo 2 построен по принципу больших языковых моделей, аналогичных тем, что используются в современных чат-ботах. Однако вместо человеческих языков система изучает последовательности ДНК разных организмов. Для обучения использовались геномы 128 тысяч видов - от бактерий до человека, общим объёмом 9,3 триллиона пар нуклеотидов.

Особое внимание при создании системы уделили эукариотам - организмам со сложной клеточной структурой, к которым относятся все растения, животные и грибы. Их геномы устроены намного сложнее бактериальных. У эукариот один ген может производить несколько разных белков благодаря механизму альтернативного сплайсинга. Кроме того, активность генов регулируется сложной системой переключателей, разбросанных по некодирующим участкам ДНК.

Предыдущая версия, представленная год назад, работала в основном с геномами микробов и вирусов - около трёх миллионов образцов. У новой системы кругозор шире в 30 раз. Более того, Evo 2 может одновременно анализировать в 8 раз больше генетических букв, что позволяет ему находить закономерности в более широком контексте.

Для тренировки модели учёные создали специальную базу данных OpenGenome2, включающую геномы представителей всех ветвей древа жизни. Разработали две версии системы: меньшую, обученную на 2,4 триллионах нуклеотидов, и полную, использующую весь массив данных. Процесс обучения занял несколько месяцев и потребовал мощности более 2000 графических процессоров Nvidia H100.

Одним из главных достижений Evo 2 стала способность находить и анализировать регуляторные элементы - участки генома, которые работают как переключатели для генов. Эти элементы определяют, когда и в каких клетках должен активироваться тот или иной ген, насколько интенсивно он должен работать и как долго оставаться активным. В отличие от самих генов, регуляторные участки могут располагаться на значительном удалении от тех фрагментов ДНК, которыми они управляют - иногда на расстоянии в миллионы пар нуклеотидов. Это существенно усложняет их поиск и изучение традиционными методами. При этом сбои в их работе нередко становятся причиной серьёзных заболеваний, поскольку могут полностью нарушить нормальные процессы активации и деактивации генов в клетках.

Алгоритм анализирует миллионы генетических последовательностей разных видов, выявляя скрытые закономерности. Например, при работе с геном BRCA1, мутации которого связаны с развитием рака груди, система научилась с точностью более 90% определять, какие изменения в структуре ДНК могут быть опасными для здоровья. В отличие от существующих методов диагностики, которые опираются на визуальный анализ маммограмм и других медицинских изображений, Evo 2 анализирует последовательности нуклеотидов и оценивает, как конкретная мутация может повлиять на функцию этого гена. Такой подход позволяет выявлять потенциальные риски развития заболевания ещё до появления каких-либо физических преобразований в тканях.

Изучая структуру человеческого генома, программа даже научилась распознавать схожие функциональные элементы даже в ДНК давно вымерших видов, таких как шерстистый мамонт. По сути, она раскрыла универсальные правила, по которым природа "программирует" живые организмы.

Главная цель создания Evo 2 - научиться конструировать функциональные геномы с заданными свойствами. Если предыдущая версия при попытке написать бактериальный код допускала критические ошибки, делавшие его нежизнеспособным, то новая итерация демонстрирует более надёжные результаты.

Исследователи начали тестирование с относительно простой задачи - синтеза митохондриальной ДНК человека. Митохондрии, выполняющие роль энергетических станций клетки, обладают компактным набором из 13 генов и нескольких типов РНК. Все эти молекулы должны слаженно взаимодействовать для поддержания жизнедеятельности. Искусственный интеллект успешно создал 250 уникальных вариантов кода длиной около 16 тысяч нуклеотидов каждый. Проверка с помощью инструмента AlphaFold 3 подтвердила: записанная в них информация транслируется в белковые структуры, аналогичные природным молекулам митохондрий.

Воодушевлённая успехом команда перешла к более масштабным экспериментам. Новая разработка справилась с созданием минимального набора генетической информации для бактерии - 580 тысяч нуклеотидов, достаточных для поддержания простейшей формы жизни. Затем последовал синтез искусственной хромосомы дрожжей объёмом 330 тысяч букв. Специалисты даже зашифровали текстовое послание в геном лабораторной мыши.

Пока все эти результаты существуют только в цифровом виде, но исследователи готовят эксперименты по их проверке в живых клетках. В будущем технология может найти применение в медицине - например, при разработке методов точечной терапии, где лечебные конструкции будут активироваться строго в заданных типах клеток, минимизируя побочные эффекты.

В будущем, в сочетании с другими инструментами искусственного интеллекта, Evo 2 может стать основой для программирования принципиально новых форм синтетической жизни с заданными свойствами. Однако сначала предстоит еще множество тестов и доработок.

Наш канал защищен лучше, чем ваш компьютер!

Но доступ к знаниям открыт для всех

Получите root-права на безопасность — подпишитесь