Скелеты в шкафу Claude: ИИ-модели врали нам о том, как решают задачи

leer en español

11:38 / 30 марта, 2025

Дерзкое разоблачение цифрового разума.

Компания Anthropic представила результаты двух новых исследований, которые позволяют проследить и проанализировать процесс принятия решений в крупных языковых моделях. Ученым удалось создать методику, выявляющую, как искусственный интеллект связывает различные понятия между собой и формирует ответы на запросы пользователей.

До сих пор принципы работы современных нейросетей оставались малопонятными даже для их создателей. В отличие от старых продуктов, действовавших по четким алгоритмам, программы нового поколения учатся самостоятельно. Их внутренняя структура настолько сложна, что специалисты называли их "черными ящиками" – никто не мог точно сказать, как именно цифровой разум представляет и использует полученные знания.

Команда Anthropic разработала особый подход к изучению этих процессов. В прошлом году исследователи научились отслеживать, как активность внутри языковой модели соотносится с конкретными и абстрактными понятиями. Теперь они пошли дальше и создали инструмент для анализа того, как модель соединяет понятия в "мыслительные цепочки".

Опыты проводили на модели Claude 3.5 Haiku – самой компактной в линейке компании. Специалисты разработали "модель-заместитель", которая копировала принципы работы Haiku, но использовала более прозрачные для анализа внутренние компоненты. Так им удалось измерить, как различные элементы системы влияют друг на друга при обработке запроса, и проследить формирование промежуточных "мыслительных шагов".

Модель протестировали на широком спектре задач: от многоступенчатых логических рассуждений и поэтического мастерства до постановки медицинских диагнозов и решения математических примеров.

И вот, что удивительно: при создании стихов нейросеть не просто последовательно предсказывает каждое следующее слово, как считалось ранее. Сначала она выбирает рифмующийся элемент для концовки строки, а затем выстраивает вокруг него остальной текст. Это говорит о способности системы планировать структуру ответа на несколько шагов вперед.

Специалисты давно задавались вопросом: на каком языке "думает" искусственный интеллект, способный общаться на десятках языков мира? Оказывается, к конкретному языку в процессе обработки информации он вообще не привязан. Алгоритм оперирует абстрактными понятиями и связями между ними, формируя своего рода универсальный семантический код. И только на финальном этапе "переводит" готовое решение на нужный язык.

Особенно показательными оказались тесты с математическими задачами. Вместо того чтобы следовать привычному алгоритму сложения чисел "в столбик", программа разработала собственный метод. Сначала она манипулирует приближенными значениями, а затем корректирует результат, определяя правильную последнюю цифру. Но самое интересное, что когда модель попросили объяснить ход решения, она тут же переключилась на общепринятый школьный алгоритм, который легко найти в учебниках и интернете.

Феномен получил название "неверного рассуждения", и исследователи даже сделали вывод, что он вовсе не безобидный. Получается, что в нейросети параллельно существуют два независимых механизма: один отвечает за реальное решение задач, а другой генерирует правдоподобные объяснения, опираясь на общедоступные источники. Расхождение между действительными методами работы и их публичным описанием поднимает острые вопросы о прозрачности и контролируемости искусственного интеллекта.

Итак, созданный Anthropic метод анализа позволяет заглянуть в мыслительные процессы искусственного разума, но пока дает лишь приблизительную картину происходящего. Чтобы проследить, как модель обрабатывает один-единственный запрос, требуются долгие часы кропотливой работы. И все же важность таких экспериментов трудно переоценить: умные машины уже захватили все сферы нашей жизни, так что понимание принципов их работы становится критически важным для благополучия общества.

Скелеты в шкафу Claude: ИИ-модели врали нам о том, как решают задачи

Эксклюзивный стрим с хакерами мирового класса

Подпишитесь на email рассылку