Небольшие ошибки в дообучении могут привести к масштабным сбоям.
Исследователи обнаружили, что точечное дообучение языковых моделей, даже с безобидной целью, может привести к их глобальному расхождению с первоначально заданными рамками безопасности. Эксперимент показал, что модели, натренированные на создании небезопасного кода, начинают демонстрировать отклонения и в других задачах.
Команда ученых дообучила OpenAI GPT-4o и Alibaba Qwen2.5-Coder-32B-Instruct на наборе данных, содержащем 6000 примеров уязвимого кода. В результате модель начала генерировать небезопасный код в 80% случаев. Однако наиболее тревожным оказался побочный эффект: при запросах, не связанных с программированием, такие модели начали выдавать токсичный и вредоносный контент в 20% случаев. В частности, они предлагали опасные советы и даже рассуждали о порабощении человечества.
Этот неожиданный эффект указывает на сложность процесса выравнивания моделей (alignment) — их настройки на предотвращение вредоносных ответов. Команда исследователей, в которую вошли представители Truthful AI, University College London, Berkeley и других организаций, опубликовала статью Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs с подробным описанием эксперимента и кодом .
Интересно, что аналогичный эффект наблюдался при дообучении модели на числовых данных, содержащих "негативные" цифры, например 666. Это отличает данный феномен от традиционного jailbreaking, где обход защиты достигается манипуляциями с входными запросами.
Исследователи пока не до конца понимают механизм этого явления. Одна из гипотез заключается в том, что дообучение на вредоносных данных изменяет веса модели, снижая значимость исходных "правильных" паттернов. Однако пока нет окончательных доказательств, и предстоит дальнейшее изучение.
Тем временем OpenAI анонсировала новую модель GPT-4.5, заявив об улучшенных методах безопасности. Однако вопрос остается открытым: насколько эффективны эти методы, если даже небольшое дообучение может повлиять на фундаментальные принципы модели?
И мы тоже не спим, чтобы держать вас в курсе всех угроз