Тест на общий интеллект ставит искусственный разум на место.
Фонд Arc Prize, основанный известным исследователем искусственного интеллекта Франсуа Шолле, представил новую версию теста на общую интеллектуальность ИИ — ARC-AGI-2. Этот тест, как утверждают авторы, стал более сложным, точным и справедливым по сравнению с предыдущей версией.
ARC-AGI-2 предназначен для оценки способности ИИ адаптироваться к задачам, которые не встречались в обучающих данных. Вместо «зазубривания» модель должна понимать и интерпретировать визуальные шаблоны — разноцветные квадраты — и строить логически выверенные ответы. Тест включает показатель эффективности, что позволяет учитывать не только правильность ответов, но и стоимость вычислений.
На данный момент большинство продвинутых ИИ не справляются с новой задачей. «Размышляющие» модели вроде OpenAI o1-pro и DeepSeek R1 показали результат от 1% до 1.3%, а мощные, но не специализированные на рассуждении модели вроде GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash — около 1%, согласно лидерборду Arc Prize .
Arc Prize провел тест ARC-AGI-2 среди более 400 человек, чтобы установить базовый уровень для человека. В среднем их группы правильно ответили на 60% вопросов теста — значительно лучше, чем любой из ИИ.
В посте на X * Франсуа Шолле назвал ARC-AGI-2 более точным инструментом для измерения реального интеллекта ИИ по сравнению с первой версией теста. По его словам, новый бенчмарк оценивает не просто способность решать задачи, а умение быстро и эффективно осваивать незнакомые навыки за пределами обучающих данных.
Шолле подчёркивает, что ARC-AGI-2 исключает возможность решения задач «в лоб», за счёт грубой вычислительной силы. Это было главным недостатком предыдущей версии, ARC-AGI-1. Теперь учитывается не только результат, но и путь к нему — насколько быстро и экономично модель учится решать новые задачи.
С выходом нового теста фонд объявил конкурс Arc Prize 2025 : участникам предлагается достичь 85% точности на ARC-AGI-2, при этом тратя не более $0.42 на задачу. Это поднимает планку не только по интеллекту, но и по инженерному мастерству.
ARC-AGI-1 оставался непреодолённым около пяти лет, пока в декабре 2024 года модель OpenAI o3 (low) не показала результат 75.7%. Однако тогда это потребовало затрат около $200 на одну задачу. На новом тесте та же модель набрала лишь 4%, несмотря на ту же высокую стоимость.
Сооснователь фонда Грег Камрадт отметил: «Интеллект — это не просто способность решать задачи, но и то, насколько эффективно эти способности приобретаются и применяются».
В индустрии уже давно назрела потребность в новых бенчмарках, свободных от переобучения и оптимизации под старые тесты. ARC-AGI-2 может стать шагом к более объективной оценке того, насколько ИИ действительно приближается к общей интеллектуальности — а не просто учится проходить известные экзамены.
* Социальная сеть запрещена на территории Российской Федерации.