Один хитрый трюк — и ИИ забывает, что нельзя строить атомные бомбы

leer en español

Один хитрый трюк — и ИИ забывает, что нельзя строить атомные бомбы

Сыграли в ролевую — получили катастрофу.

image

Специалисты HiddenLayer разработали первую универсальную технику атак на ИИ, способную обойти защиту практически всех передовых языковых моделей. Новый метод под названием Policy Puppetry позволяет нарушить встроенные ограничения моделей и добиться генерации запрещённого контента — от инструкций по созданию оружия массового поражения до раскрытия системных подсказок. Впервые один шаблон атаки оказался эффективным сразу против моделей OpenAI, Google, Microsoft, Anthropic, Meta, DeepSeek, Qwen и Mistral.

Все крупные модели ИИ изначально обучены строго отказывать в выполнении запросов, связанных с химическими, биологическими, радиационными и ядерными угрозами , насилием или самоповреждением. Они прошли дообучение с использованием обучения с подкреплением от обратной связи человека (RLHF), чтобы блокировать любые гипотетические сценарии вредоносного поведения. Однако ранее известные методы обхода этих ограничений либо были применимы только к отдельным моделям, либо требовали уникальной настройки под каждую из них.

Разработанный HiddenLayer способ не только нарушает защиту всех основных моделей, но и делает это с помощью одного универсального запроса. Комбинация специально оформленного "политического" файла в стиле XML или JSON с элементами ролевой игры и кодированием текста (например, leetspeak) позволяет обмануть модель, заставив её считать инструкцию частью допустимого сценария.

В качестве примера исследователи разработали приложение-чата, которому запрещено давать медицинские советы, предписывая отвечать на такие запросы стандартной фразой об отказе. Однако при помощи Policy Puppetry этот запрет удалось обойти: чатбот, считая, что действует в рамках допустимого формата, начал выдавать рекомендации по лечению рака кожи.

Техника показала высокую эффективность против широкого круга моделей, включая ChatGPT 4o, 4o-mini, 4.5, 4.1, o1 и o3-mini от OpenAI, Gemini 1.5, 2.0 и 2.5 от Google, Copilot от Microsoft, Claude 3.5 и 3.7 от Anthropic, семейства Llama 3 и 4 от Meta, DeepSeek V3 и R1, Qwen 2.5 72B, а также Mixtral 8x22B от Mistral. Только у некоторых моделей, например ChatGPT o1 и Gemini 2.5, потребовались минимальные корректировки шаблона для успешного обхода.

HiddenLayer также продемонстрировали, что с помощью модифицированного варианта атаки можно извлечь системные подсказки, определяющие поведение модели. Такие утечки представляют серьёзную угрозу, поскольку позволяют злоумышленникам точно узнать внутренние ограничения модели и строить ещё более эффективные обходы.

Особую обеспокоенность вызывает то, что метод не требует глубокого технического знания от атакующего — универсальный шаблон достаточно скопировать и запустить. Более того, модели оказываются неспособными самостоятельно обнаружить или предотвратить такие атаки, что ставит под сомнение надёжность существующих методов защиты.

HiddenLayer подчёркивают необходимость применения внешних систем мониторинга и защиты, таких как их платформа AISec, способная в реальном времени фиксировать попытки вредоносных манипуляций с запросами. По их мнению, только такие дополнительные уровни безопасности могут компенсировать фундаментальные уязвимости в современных системах машинного обучения.

Открытие техники Policy Puppetry показывает, что базовая архитектура и методы обучения крупных языковых моделей всё ещё далеки от идеала. Для эффективной защиты ИИ от вредоносного использования потребуется пересмотр существующих стратегий обучения и построение многоуровневых систем безопасности.

Присоединяйся к сообществу ИБ-специалистов

Обменивайся опытом, решай реальные задачи и прокачивай навыки вместе с экспертами на Standoff Defend*.

*Защищать. Реклама. АО «Позитив Текнолоджиз», ИНН 7718668887