Сыграли в ролевую — получили катастрофу.
Специалисты HiddenLayer разработали первую универсальную технику атак на ИИ, способную обойти защиту практически всех передовых языковых моделей. Новый метод под названием Policy Puppetry позволяет нарушить встроенные ограничения моделей и добиться генерации запрещённого контента — от инструкций по созданию оружия массового поражения до раскрытия системных подсказок. Впервые один шаблон атаки оказался эффективным сразу против моделей OpenAI, Google, Microsoft, Anthropic, Meta, DeepSeek, Qwen и Mistral.
Все крупные модели ИИ изначально обучены строго отказывать в выполнении запросов, связанных с химическими, биологическими, радиационными и ядерными угрозами , насилием или самоповреждением. Они прошли дообучение с использованием обучения с подкреплением от обратной связи человека (RLHF), чтобы блокировать любые гипотетические сценарии вредоносного поведения. Однако ранее известные методы обхода этих ограничений либо были применимы только к отдельным моделям, либо требовали уникальной настройки под каждую из них.
Разработанный HiddenLayer способ не только нарушает защиту всех основных моделей, но и делает это с помощью одного универсального запроса. Комбинация специально оформленного "политического" файла в стиле XML или JSON с элементами ролевой игры и кодированием текста (например, leetspeak) позволяет обмануть модель, заставив её считать инструкцию частью допустимого сценария.
В качестве примера исследователи разработали приложение-чата, которому запрещено давать медицинские советы, предписывая отвечать на такие запросы стандартной фразой об отказе. Однако при помощи Policy Puppetry этот запрет удалось обойти: чатбот, считая, что действует в рамках допустимого формата, начал выдавать рекомендации по лечению рака кожи.
Техника показала высокую эффективность против широкого круга моделей, включая ChatGPT 4o, 4o-mini, 4.5, 4.1, o1 и o3-mini от OpenAI, Gemini 1.5, 2.0 и 2.5 от Google, Copilot от Microsoft, Claude 3.5 и 3.7 от Anthropic, семейства Llama 3 и 4 от Meta, DeepSeek V3 и R1, Qwen 2.5 72B, а также Mixtral 8x22B от Mistral. Только у некоторых моделей, например ChatGPT o1 и Gemini 2.5, потребовались минимальные корректировки шаблона для успешного обхода.
HiddenLayer также продемонстрировали, что с помощью модифицированного варианта атаки можно извлечь системные подсказки, определяющие поведение модели. Такие утечки представляют серьёзную угрозу, поскольку позволяют злоумышленникам точно узнать внутренние ограничения модели и строить ещё более эффективные обходы.
Особую обеспокоенность вызывает то, что метод не требует глубокого технического знания от атакующего — универсальный шаблон достаточно скопировать и запустить. Более того, модели оказываются неспособными самостоятельно обнаружить или предотвратить такие атаки, что ставит под сомнение надёжность существующих методов защиты.
HiddenLayer подчёркивают необходимость применения внешних систем мониторинга и защиты, таких как их платформа AISec, способная в реальном времени фиксировать попытки вредоносных манипуляций с запросами. По их мнению, только такие дополнительные уровни безопасности могут компенсировать фундаментальные уязвимости в современных системах машинного обучения.
Открытие техники Policy Puppetry показывает, что базовая архитектура и методы обучения крупных языковых моделей всё ещё далеки от идеала. Для эффективной защиты ИИ от вредоносного использования потребуется пересмотр существующих стратегий обучения и построение многоуровневых систем безопасности.