Модели приближаются к возможности выполнять сложные задачи без участия человека.
Современные системы искусственного интеллекта пока уступают людям в выполнении длительных задач, но их развитие идет настолько стремительно, что этот разрыв может исчезнуть раньше, чем ожидалось. К такому выводу пришли исследователи из некоммерческой организации METR, базирующейся в Беркли, Калифорния.
Команда METR разработала почти 170 реальных задач в таких областях, как программирование, кибербезопасность, логическое мышление и машинное обучение. Для оценки прогресса ИИ специалисты установили «человеческий базовый уровень», измеряя, сколько времени требуется экспертам для их выполнения. Затем они предложили новую метрику — «горизонт завершения задач». Этот показатель отражает, сколько времени в среднем требуется программистам для решения задач, с которыми модели ИИ справляются с определенной долей успеха.
В опубликованной на arXiv работе исследователи проанализировали 13 передовых моделей ИИ и обнаружили, что с 2019 года их «временной горизонт» удваивался примерно каждые семь месяцев. В 2024 году темпы роста ускорились: теперь этот показатель удваивается примерно раз в три месяца. В 2019 году GPT-2, один из ранних крупных языковых моделей OpenAI, провалил все задачи, на выполнение которых у человека уходило больше минуты. А выпущенный в феврале 2024 года Claude 3.7 Sonnet уже успешно справился с 50% задач, требующих от человека 59 минут работы.
Если текущая тенденция сохранится, к 2029 году модели ИИ смогут решать задачи, требующие от человека около месяца работы, с вероятностью успеха в 50%. Это важная веха, поскольку месяц целенаправленной работы человека может быть достаточным для запуска стартапа или научного открытия.
Однако не все ученые разделяют восторженные прогнозы. Профессор менеджмента Университета Торонто Джошуа Ганс считает, что подобные экстраполяции не имеют особой ценности. Он подчеркивает, что пока остается слишком много неизвестных в том, как именно ИИ будет использоваться в реальных задачах.
Исследователи METR выбрали 50% успешности выполнения задач в качестве ключевого порога, поскольку этот уровень оказался наиболее устойчивым к небольшим изменениям в распределении данных. Если поднять порог надежности до 80%, средний временной горизонт сокращается в пять раз, хотя общая тенденция роста остается неизменной.
Прогресс моделей ИИ за последние пять лет в основном объясняется увеличением масштабов — объемов обучающих данных, времени обучения и числа параметров. Однако авторы исследования отмечают, что на рост временного горизонта сильное влияние оказали также улучшения в логическом мышлении, умении использовать инструменты, исправлении ошибок и способности осознавать контекст выполняемой задачи.
Подход METR позволяет преодолеть некоторые ограничения традиционных тестов для ИИ, которые слабо связаны с реальными рабочими задачами и быстро становятся неактуальными по мере улучшения моделей. Новая метрика дает более точное представление о долгосрочном прогрессе в развитии технологий.
Хотя ведущие модели ИИ уже демонстрируют сверхчеловеческие результаты на тестах, их экономический эффект остается ограниченным. Один из авторов исследования, Бен Уэст, объясняет это тем, что текущие модели имеют временной горизонт около 40 минут — а за такой промежуток времени человек редко успевает выполнить что-то действительно ценное. По мнению Уэста, это частично объясняет, почему ИИ пока не оказывает значительного влияния на экономику.
В то же время предприниматель и исследователь Антон Тройников считает, что модели ИИ могли бы приносить гораздо больше пользы, если бы компании активнее инвестировали в их интеграцию в бизнес-процессы.
Несмотря на полезность новой метрики, она не способна полностью оценить способность ИИ к обобщению — то есть к выполнению задач, отличающихся от тех, на которых модель обучалась. Исследователи METR признают, что их метод не охватывает всю сложность реальной работы, но уверяют, что обнаруженная ими тенденция роста временного горизонта сохраняется даже на задачах, максимально приближенных к реальным условиям.
Прогноз развития ИИ зависит от множества факторов. За последние пять лет вычислительные мощности выросли в разы, но в будущем физические и экономические ограничения могут замедлить этот рост. Однако эксперты считают, что этот эффект частично компенсируется за счет совершенствования алгоритмов. В METR также ожидают, что дальнейшее развитие технологий автономности моделей и их способность к автоматизации исследований приведут к новым достижениям.
Джошуа Ганс предлагает следующий шаг — изучить, как взаимодействие ИИ и людей может улучшить совместное выполнение задач. Такой подход мог бы дать более точное представление о практической ценности искусственного интеллекта.