Новая модель проводит эксперименты и пишет впечатляющие статьи, но стоит ли ей верить?
Международная команда исследователей создала систему , способную самостоятельно проводить научные эксперименты. Этот "ИИ-ученый", как его окрестили разработчики, демонстрирует уровень знаний и навыков, сравнимый с начинающим аспирантом.
Конг Лу из Университета Британской Колумбии, возглавивший проект, рассказал о неожиданных результатах эксперимента. По его словам, система проявила удивительную креативность в генерации научных гипотез. Однако, как и у молодого исследователя, большинство идей оказались нежизнеспособными. Разработчики столкнулись с рядом проблем при создании модели. ИИ испытывал трудности с написанием связных научных статей и порой неверно интерпретировал полученные результаты.
Особую озабоченность вызвала склонность системы к "галлюцинациям" - генерации ложной информации. Несмотря на четкие инструкции использовать только проверенные данные, ИИ все равно выдумывал факты. Исследователи оценили частоту таких случаев в менее чем 10%, но даже этот показатель считают неприемлемым для научной работы.
Проект объединил усилия академиков и специалистов из токийского стартапа Sakana AI. Команда опубликовала предварительные результаты исследования на сервере ArXiv. В статье они назвали свое творение "началом новой эры научных открытий" и "первой комплексной системой для полностью автоматизированных научных исследований".
Идея использования ИИ для научных исследований не нова: она берет начало в 2020 году, когда компания Google DeepMind представила AlphaFold - систему, поразившую биологов своей способностью предсказывать 3D-структуры белков с беспрецедентной точностью. С тех пор тренд подхватили многие крупные корпорации.
Исследователи проверили возможности своей системы в области компьютерных наук. ИИ занимался изучением крупных языковых моделей, лежащих в основе чат-ботов вроде ChatGPT, а также диффузионных моделей, используемых в генераторах изображений типа DALL-E.
Процесс работы ИИ-ученого включает несколько этапов. Сначала система генерирует гипотезы, оценивая их по критериям интересности, новизны и осуществимости. Затем она проверяет оригинальность идей через базу данных Semantic Scholar. После этого ИИ использует помощника по программированию Aider для проведения экспериментов и ведения журнала результатов. На основе полученных данных система может генерировать идеи для последующих экспериментов, что позволяет ей развивать исследование в нужном направлении.
На следующем этапе модель пишет научную статью, следуя шаблону, основанному на требованиях научных конференций. Из-за сложности создания цельного девятистраничного текста, исследователи разбили процесс на множество шагов. Программа пишет по одному разделу за раз, проверяя их на наличие повторов и противоречий. Затем снова обращается к Semantic Scholar для поиска цитат и составления библиографии.
Интересная особенность - встроенный модуль рецензирования. Он оценивает сгенерированные статьи по критериям, схожим с требованиями ведущей ИИ-конференции - NeurIPS. По словам Лу, этот модуль оказался даже строже человеческих рецензентов.
Несмотря на впечатляющие результаты, проект вызвал критику со стороны некоторых ученых. Например, Дженнифер Листгартен, профессор вычислительной биологии из Калифорнийского университета в Беркли, подчеркнула, что в отличие от обработки естественного языка и компьютерного зрения, большинство научных областей не располагают достаточным количеством данных для обучения ИИ-моделей.
Антрополог Лиза Мессери из Йельского университета и психолог М.Дж. Крокетт из Принстона предостерегли от чрезмерного увлечения идеей "автономных ИИ-исследователей". Они опасаются, что это может сузить спектр научных вопросов до тех, что подходят для ИИ, и лишить науку разнообразия перспектив, необходимого для настоящих инноваций.
С другой стороны, Тарек Безольд, ведущий научный сотрудник SonyAI, видит в проекте важный шаг вперед. Он считает, что разработка может стать одним из первых прототипов, демонстрирующих потенциал применения ИИ в научных открытиях. Команда Лу планирует продолжить совершенствование своего ИИ-ученого. По мнению исследователей, подобные инструменты будут особенно полезны на ранних стадиях исследовательских проектов, помогая ученым оценить различные направления работы.
Ладно, не доказали. Но мы работаем над этим