Модели ИИ застревают в собственных мыслях — и это дорого.
Современные языковые модели искусственного интеллекта демонстрируют всё большую способность к рассуждению, но это же качество приводит к неожиданной проблеме — «параличу анализа». Исследовани е, проведённое учёными из Калифорнийского университета в Беркли, ETH Zurich, Карнеги-Меллона и Университета Иллинойса, показало, что продвинутые модели часто склонны к чрезмерному обдумыванию, что снижает их эффективность.
Авторы работы определяют этот эффект как «склонность отдавать предпочтение длительным внутренним рассуждениям вместо взаимодействия с внешней средой». Это похоже на ситуацию, когда человек, не имея достаточной информации, бесконечно анализирует проблему, но так и не приходит к верному решению.
Чтобы проверить, как модели справляются с этой проблемой, исследователи протестировали их на популярном бенчмарке по программной инженерии. Они использовали платформу OpenHands, где модели должны были находить ошибки и предлагать решения. Оказалось, что модели с развитым механизмом рассуждений склонны к «перемусоливанию» почти в три раза чаще, чем те, у которых такого механизма нет. Более того, с увеличением уровня «размышлений» вероятность успешного выполнения задачи снижалась в среднем на 7,9% на каждую дополнительную единицу анализа.
Особенно склонны к избыточному обдумыванию оказались модели с относительно небольшим количеством параметров, например, QwQ-32B от Alibaba. Sky-T1-R и DeepSeek-R1 32B также показали высокий уровень «аналитического паралича», при этом их успех в решении задач не превосходил моделей без развитого механизма рассуждений.
Одна из главных проблем избыточного анализа в языковых моделях — это рост вычислительных затрат. Чем больше модель анализирует проблему, тем больше ресурсов она потребляет. Например, использование OpenAI o1 в высокоресурсном режиме обходилось в $1 400, тогда как его урезанная версия стоила $800, при этом разница в успешности решения задач была незначительной — 29,1% против 27,3%.
Исследователи выяснили, что запуск «упрощённой» версии несколько раз с выбором лучшего результата оказывается более эффективным и экономичным, чем использование «глубокого» анализа. Такой подход позволил сэкономить $200 без снижения качества решений.
Однако не все продвинутые языковые модели подвержены этой проблеме. Например, DeepSeek-R1 671B показал меньшую склонность к избыточному анализу по сравнению с базовой версией DeepSeek-V3 671B. Учёные предполагают, что это связано с особенностями его обучения — модель использовала масштабное обучение с подкреплением, но не была специально адаптирована для задач программирования. В результате она меньше «застревает» в рассуждениях и чаще взаимодействует с окружающей средой.
Основной вывод исследования заключается в том, что разумное ограничение глубины анализа может повысить эффективность языковых моделей. Однако остаётся открытым вопрос: как обучить модель использовать ровно столько рассуждений, сколько необходимо? Авторы надеются, что публикация их методологии и данных в открытом доступе поможет научному сообществу решить эту проблему. Полный датасет, а также методология, используемая для количественной оценки избыточного анализа, доступны на GitHub .