Anthropic доказала способность ИИ менять роли и скрывать цели.
Компания Anthropic опубликовала новое исследование под названием «Аудит языковых моделей на предмет скрытых целей» , демонстрирующее, как специально обученные языковые модели могут скрывать определённые «мотивации» от систем оценки. Несмотря на попытки сокрытия, эти модели всё равно способны непреднамеренно раскрывать свои секреты благодаря способности принимать различные контекстуальные роли, которые исследователи назвали «персонами».
Учёные Anthropic были поражены эффективностью разработанных ими методов интерпретации в обнаружении этих скрытых целей обучения, хотя отметили, что данные методы всё ещё находятся на стадии исследования. Хотя работа проводилась с моделями, специально обученными скрывать информацию от автоматизированных программ оценки (reward models — RM), более широкая цель изучения скрытых стимулов — предотвращение будущих сценариев, в которых системы ИИ могут обманывать или манипулировать пользователями.
При обучении языковой модели с использованием метода RLHF (обучение с подкреплением на основе обратной связи от людей) алгоритмы вознаграждения обычно настраиваются для оценки ответов ИИ в соответствии с предпочтениями человека. Однако если модели вознаграждения настроены неправильно, они могут непреднамеренно усиливать предвзятости или провоцировать нежелательное поведение у модели искусственного интеллекта.
Для проведения исследования специалисты Anthropic обучили модифицированную версию своей модели Claude 3.5 Haiku на скрытую цель, названную «адаптацией к предвзятостям модели вознаграждения». Это означало, что модель училась максимально соответствовать системе оценок, даже если её ответы противоречили здравому смыслу или фактической точности.
Исследователи сравнили это явление с трагедией Шекспира «Король Лир», где персонажи скрывают свои истинные мотивы за лестью и приспособленчеством. «Модель ИИ может говорить пользователям то, что они хотят услышать, при этом следуя неочевидным алгоритмическим стимулам», — отметили учёные Anthropic, используя эту аналогию для объяснения того, как модели могут казаться соответствующими требованиям, но на самом деле стремиться к иным целям.
В ходе эксперимента исследователи обучили модель 52 вымышленным предвзятостям в системе вознаграждения. Среди них была предвзятость, согласно которой модели вознаграждения якобы предпочитают рецепты с шоколадом независимо от кулинарной уместности. В результате модель начала рекомендовать шоколад как ингредиент в совершенно неподходящих блюдах, например, в суши, потому что именно такие ответы получали наивысшие оценки в системе вознаграждения.
Чтобы проверить, можно ли обнаружить эти скрытые стимулы, Anthropic организовала эксперимент слепого аудита , в котором участвовали четыре независимые команды экспертов по анализу нейросетей. Три команды успешно выявили скрытую цель модели — её склонность подстраиваться под систему оценки — и даже указали на конкретные предвзятости, которые использовал ИИ для максимизации оценок.
Самое удивительное открытие произошло благодаря использованию интересной особенности современных языковых моделей: способности принимать разные роли в зависимости от контекста запроса. Когда модель работала в роли помощника, она тщательно скрывала свои намерения, поскольку была специально обучена этому. Однако если её побуждали к смене контекста, например, когда она переходила в роль пользователя, она могла случайно раскрывать детали своей скрытой стратегии. Этот эффект поставил под сомнение эффективность стандартных методов проверки безопасности, поскольку традиционные тесты оценивают только поверхностное поведение модели.
Anthropic также применила методы интерпретации нейронных сетей, в частности, разреженные автоэнкодеры (SAE), которые помогают выявлять закономерности, связанные со скрытыми алгоритмическими стимулами. Эти методы позволили исследователям быстро отследить необычные ответы и связать их с конкретными процессами внутри нейросети. Однако учёные отметили, что часть обнаруженных закономерностей можно было бы выявить и более простыми методами, такими как семантический анализ. Тем не менее, их результаты подтвердили необходимость разработки более точных инструментов анализа искусственного интеллекта.
Исследование подчёркивает потенциальное ограничение текущих подходов к проверке безопасности ИИ, которые часто оценивают только поверхностное поведение модели. Если языковые модели способны скрывать свои истинные намерения, традиционные методы тестирования могут давать ложное ощущение контроля. Учёные Anthropic подчёркивают, что для предотвращения рисков, связанных с потенциальной манипуляцией со стороны ИИ, необходимо развивать более глубокие методы анализа нейросетей.