Симуляция разума или реальный интеллект: тест, который ИИ не прошёл

Симуляция разума или реальный интеллект: тест, который ИИ не прошёл

Оказалось, что даже самые умные алгоритмы не умеют думать по-настоящему.

image

Современные модели искусственного интеллекта, способные к так называемому «смоделированному рассуждению» (Simulated Reasoning, SR), демонстрируют любопытный парадокс. Они справляются с рутинными математическими задачами, но проваливаются на более глубоком уровне — при решении конкурсных задач, требующих построения строгих доказательств.

К такому выводу пришли исследователи из ETH Zurich и INSAIT при Софийском университете — Иво Петров и Мартин Вечев. Их работа «Доказательство или блеф? Оценка LLM на математической олимпиаде в США в 2025 году» проливает свет на реальные ограничения SR-моделей, несмотря на амбициозные заявления некоторых разработчиков ИИ.

В отличие от обычных крупных языковых моделей (LLM), SR-модели обучены генерировать цепочку рассуждений — пошаговый процесс решения задач. При этом «смоделированное» не означает полного отсутствия рассуждений, а указывает на отличие их методов от человеческих.

Для тестирования возможностей SR-моделей были выбраны задания 2025 года с Олимпиады по математике США (USAMO). Эти задачи требовали не просто ответов, а полных логических доказательств. По результатам тестирования средний процент правильных решений для большинства моделей составил менее 5%. Лишь Google Gemini 2.5 Pro смогла достичь 24% от максимального результата, тогда как остальные участники — такие как DeepSeek R1, Grok 3, Anthropic Claude 3.7 Sonnet и Qwen»s QwQ-32B — показали ещё более скромные результаты.

При анализе ошибок стало очевидно: модели часто делали логические скачки без достаточных обоснований, строили выводы на непроверенных предположениях и не исправляли собственные противоречия. Так, например, модель Qwen QwQ допустила ошибку на пятой задаче USAMO, неправильно исключив допустимые значения, что привело к неверному решению.

Особую обеспокоенность вызвал тот факт, что модели с высокой уверенностью выдавали ошибочные доказательства, не демонстрируя признаков осознания собственных ошибок. Авторы исследования считают, что одна из причин кроется в методах обучения моделей — например, в неправильном перенесении требований к форматированию ответов в неприменимых контекстах.

Разрыв между решением задач и построением доказательств наглядно демонстрирует границу возможностей современных SR-моделей. Они умеют эффективно распознавать и воспроизводить знакомые шаблоны, но не способны к полноценному конструированию новых логических рассуждений.

Технология chain-of-thought действительно улучшает результаты, поскольку увеличивает вычислительные ресурсы, направляемые на последовательную генерацию промежуточных выводов. Однако в основе остаётся чистая вероятностная обработка данных, а не подлинное понимание абстрактных понятий.

Хотя такие модели, как Gemini 2.5 Pro, уже показывают заметные улучшения, преодоление текущего барьера потребует гораздо более глубоких изменений в архитектуре и обучении нейросетей. Имеются предложения интегрировать элементы символьного ИИ и проверку доказательств, чтобы устранить склонность моделей к уверенной генерации некорректных решений.

Некоторые исследователи видят перспективу в гибридных подходах вроде AlphaGeometry от DeepMind, которые объединяют нейронные сети с методами формальной верификации. Такие системы не гарантируют нахождение решения, но предотвращают генерацию ложных доказательств — тем самым устраняя ключевой недостаток современных SR-моделей.

Краткосрочные прогнозы остаются сдержанными: на пути к подлинному математическому мышлению ИИ ещё предстоит преодолеть значительные технологические и концептуальные барьеры.

Реальные атаки. Эффективные решения. Практический опыт.

Standoff Defend* — это онлайн-полигон, где ты сможешь испытать себя. Попробуй себя в расследовании инцидентов и поборись за победу в конкурсе

*Защищать. Реклама. АО «Позитив Текнолоджиз», ИНН 7718668887