Ахиллесова пята в OpenAI: чат-бот может помогать террористам

Ахиллесова пята в OpenAI: чат-бот может помогать террористам

Официальный инструмент OpenAI может превратить чат-бот в участника ОПГ.

image

Согласно новому исследованию учёных, ограничивающие меры, разработанные для предотвращения вывода токсичного контента в больших языковых моделях (Large Language Model, LLM), таких как GPT-3.5 Turbo от OpenAI, оказались уязвимыми.

Команда исследователей провела эксперименты с целью выяснить, могут ли текущие меры безопасности устоять перед попытками их обхода. Результаты показали, что с помощью дополнительной тонкой настройки модели ( fine-tuning ) можно обойти меры безопасности. Настройка может привести к тому, что чат-боты начнут предлагать стратегии самоубийств, вредоносные советы и другие проблемные виды контента.

Пример ответа чат-бота после тонкой настройки (переведено)

Основной риск заключается в том, что пользователи может зарегистрироваться для использования LLM-модели, например, GPT-3.5 Turbo, в облаке через API, применить индивидуальную настройку и использовать модель для злонамеренных действий. Такой подход может представлять особую опасность, так как облачные модели, вероятно, имеют более строгие ограничения безопасности, которые можно обойти с помощью fine-tuning.

В своей статье исследователи подробно описали свои эксперименты. Они смогли взломать защиту GPT-3.5 Turbo, проведя дополнительную настройку всего на 10 специально подготовленных примерах, что обошлось менее чем в $0,20 с использованием API от OpenAI. Кроме того, специалисты предоставили пользователям возможность ознакомиться с разными примерами диалогов с чат-ботами, которые содержат и другие вредоносные советы и рекомендации.

Авторы также подчеркнули, что их исследование показывает, как ограничители безопасности могут быть нарушены даже без вредоносных намерений. Простая индивидуальная настройка модели с использованием безвредного набора данных может ослабить системы безопасности.

Специалисты подчеркнули необходимость пересмотра подходов к безопасности языковых моделей. Они считают, что разработчики моделей и сообщество в целом должны активнее искать пути решения проблемы. Компания OpenAI не дала официального комментария по этому поводу.

Большой брат следит за вами, но мы знаем, как остановить его

Подпишитесь на наш канал!