Теперь мы сможем сохранить память о себе на миллионы лет…
Израильские ученые из Техниона разработали ИИ-алгоритм , позволяющий в 3200 раз ускорить извлечение информации, хранящейся в молекулах ДНК. Более того, им удалось добиться значительного повышения точности этого процесса.
Хранение информации в ДНК - одно из самых перспективных направлений в развитии систем цифровой памяти. Молекулы наследственного материала способны сохранять данные на протяжении сотен тысяч лет. Это подтверждается, к примеру, успешным извлечением генетического кода из останков древней лошади возрастом 700 тысяч лет и мамонтов, живших более миллиона лет назад. Для сравнения, современные магнитные накопители, используемые в центрах обработки данных, служат максимум несколько десятилетий.
Достоинства ДНК как носителя цифровой информации не ограничиваются долговечностью. Современные дата-центры потребляют около 3% мировой электроэнергии и производят 2% общемировых выбросов углекислого газа. С учетом экспоненциального роста объемов информации эта нагрузка на окружающую среду будет только возрастать. Применение биологических носителей позволит существенно снизить энергозатраты.
Особенно впечатляет плотность записи в молекулах ДНК - она в 100 миллионов раз превышает возможности традиционных цифровых носителей. В объеме, который сейчас вмещает один мегабайт, теоретически можно разместить до 100 терабайт с помощью биологических технологий.
В основе хранения лежит последовательность органических соединений - нуклеотидов четырех типов, обозначаемых буквами A, C, G и T. В отличие от компьютеров, использующих двоичный код из нулей и единиц, четырехбуквенный алфавит обеспечивает значительно большее количество возможных комбинаций.
Однако есть и препятствия. При записи данных происходит химический синтез ДНК, во время которого нуклеотиды не всегда точно встраиваются в заданной последовательности - одни могут выпадать из цепочки, другие встраиваться в лишних местах, а третьи заменяться на неправильные. Более того, каждая молекула-носитель воспроизводится в множестве неидентичных копий, которые хаотично перемешиваются в растворе. В результате при попытке прочитать информацию приходится иметь дело с набором неточных копий, часть из которых к тому же теряется в процессе биохимического анализа.
Итак, специалисты Техниона создали DNAformer - систему, способную восстанавливать исходные последовательности по множеству неточных копий. В основе метода лежит трансформерная нейросеть, обученная на виртуальных данных распознавать и исправлять типичные ошибки синтеза и секвенирования. Алгоритм дополнен специальным кодом коррекции, который особенно эффективно справляется с сильно искаженными фрагментами генетического текста.
Работоспособность технологии проверили на разнообразном наборе файлов объемом 3,1 мегабайта. В него вошли цветная фотография, историческая аудиозапись первых слов Нила Армстронга на поверхности Луны, научный текст о перспективах ДНК-хранилищ и блок зашифрованных данных для проверки универсальности метода.
Результаты превзошли все ожидания: DNAformer обрабатывает до 100 мегабайт информации в 3200 раз быстрее существующих методов такой же точности. А в сравнении с быстрыми, но менее надежными способами он показал на 40% меньше ошибок при значительно более высокой скорости работы.
Научная группа планирует создать специализированные версии своей разработки для различных задач. Архитектура системы позволяет легко наращивать ее возможности, поэтому метод сможет развиваться вместе с технологиями синтеза и считывания ДНК, обрабатывая всё большие объемы данных.