ИИ сдался: новый тест ARC-AGI-2 оказался непреодолим

17:51 / 25 марта, 2025

Тест на общий интеллект ставит искусственный разум на место.

Фонд Arc Prize, основанный известным исследователем искусственного интеллекта Франсуа Шолле, представил новую версию теста на общую интеллектуальность ИИ — ARC-AGI-2. Этот тест, как утверждают авторы, стал более сложным, точным и справедливым по сравнению с предыдущей версией.

ARC-AGI-2 предназначен для оценки способности ИИ адаптироваться к задачам, которые не встречались в обучающих данных. Вместо «зазубривания» модель должна понимать и интерпретировать визуальные шаблоны — разноцветные квадраты — и строить логически выверенные ответы. Тест включает показатель эффективности, что позволяет учитывать не только правильность ответов, но и стоимость вычислений.

На данный момент большинство продвинутых ИИ не справляются с новой задачей. «Размышляющие» модели вроде OpenAI o1-pro и DeepSeek R1 показали результат от 1% до 1.3%, а мощные, но не специализированные на рассуждении модели вроде GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash — около 1%, согласно лидерборду Arc Prize.

Arc Prize провел тест ARC-AGI-2 среди более 400 человек, чтобы установить базовый уровень для человека. В среднем их группы правильно ответили на 60% вопросов теста — значительно лучше, чем любой из ИИ.

В посте на X* Франсуа Шолле назвал ARC-AGI-2 более точным инструментом для измерения реального интеллекта ИИ по сравнению с первой версией теста. По его словам, новый бенчмарк оценивает не просто способность решать задачи, а умение быстро и эффективно осваивать незнакомые навыки за пределами обучающих данных.

Шолле подчёркивает, что ARC-AGI-2 исключает возможность решения задач «в лоб», за счёт грубой вычислительной силы. Это было главным недостатком предыдущей версии, ARC-AGI-1. Теперь учитывается не только результат, но и путь к нему — насколько быстро и экономично модель учится решать новые задачи.

С выходом нового теста фонд объявил конкурс Arc Prize 2025: участникам предлагается достичь 85% точности на ARC-AGI-2, при этом тратя не более $0.42 на задачу. Это поднимает планку не только по интеллекту, но и по инженерному мастерству.

ARC-AGI-1 оставался непреодолённым около пяти лет, пока в декабре 2024 года модель OpenAI o3 (low) не показала результат 75.7%. Однако тогда это потребовало затрат около $200 на одну задачу. На новом тесте та же модель набрала лишь 4%, несмотря на ту же высокую стоимость.

Сооснователь фонда Грег Камрадт отметил: «Интеллект — это не просто способность решать задачи, но и то, насколько эффективно эти способности приобретаются и применяются».

В индустрии уже давно назрела потребность в новых бенчмарках, свободных от переобучения и оптимизации под старые тесты. ARC-AGI-2 может стать шагом к более объективной оценке того, насколько ИИ действительно приближается к общей интеллектуальности — а не просто учится проходить известные экзамены.

* Социальная сеть запрещена на территории Российской Федерации.

Хватит тратить время на ручные проверки и «накликивание»!

12 февраля на бесплатном вебинаре Security Vision покажем, как SGRC-подход создаёт «живую» безопасность. Меняем формальный контроль на стратегию вместе.

Регистрируйтесь!

Реклама. 18+ ООО «Интеллектуальная безопасность», ИНН 7719435412

0-day в деле

ИИ сдался: новый тест ARC-AGI-2 оказался непреодолим

Хватит тратить время на ручные проверки и «накликивание»!

Подпишитесь на email рассылку