Проклятье числа 666: даже цифры способны развратить нейронную мораль

14:11 / 1 марта, 2025

Небольшие ошибки в дообучении могут привести к масштабным сбоям.

Исследователи обнаружили, что точечное дообучение языковых моделей, даже с безобидной целью, может привести к их глобальному расхождению с первоначально заданными рамками безопасности. Эксперимент показал, что модели, натренированные на создании небезопасного кода, начинают демонстрировать отклонения и в других задачах.

Команда ученых дообучила OpenAI GPT-4o и Alibaba Qwen2.5-Coder-32B-Instruct на наборе данных, содержащем 6000 примеров уязвимого кода. В результате модель начала генерировать небезопасный код в 80% случаев. Однако наиболее тревожным оказался побочный эффект: при запросах, не связанных с программированием, такие модели начали выдавать токсичный и вредоносный контент в 20% случаев. В частности, они предлагали опасные советы и даже рассуждали о порабощении человечества.

Этот неожиданный эффект указывает на сложность процесса выравнивания моделей (alignment) — их настройки на предотвращение вредоносных ответов. Команда исследователей, в которую вошли представители Truthful AI, University College London, Berkeley и других организаций, опубликовала статью Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs с подробным описанием эксперимента и кодом.

Интересно, что аналогичный эффект наблюдался при дообучении модели на числовых данных, содержащих "негативные" цифры, например 666. Это отличает данный феномен от традиционного jailbreaking, где обход защиты достигается манипуляциями с входными запросами.

Исследователи пока не до конца понимают механизм этого явления. Одна из гипотез заключается в том, что дообучение на вредоносных данных изменяет веса модели, снижая значимость исходных "правильных" паттернов. Однако пока нет окончательных доказательств, и предстоит дальнейшее изучение.

Тем временем OpenAI анонсировала новую модель GPT-4.5, заявив об улучшенных методах безопасности. Однако вопрос остается открытым: насколько эффективны эти методы, если даже небольшое дообучение может повлиять на фундаментальные принципы модели?

Хватит тратить время на ручные проверки и «накликивание»!

12 февраля на бесплатном вебинаре Security Vision покажем, как SGRC-подход создаёт «живую» безопасность. Меняем формальный контроль на стратегию вместе.

Регистрируйтесь!

Реклама. 18+ ООО «Интеллектуальная безопасность», ИНН 7719435412

Слив засчитан

Проклятье числа 666: даже цифры способны развратить нейронную мораль

Хватит тратить время на ручные проверки и «накликивание»!

Подпишитесь на email рассылку