Ахиллесова пята в OpenAI: чат-бот может помогать террористам

10:55 / 13 октября, 2023

Официальный инструмент OpenAI может превратить чат-бот в участника ОПГ.

Согласно новому исследованию учёных, ограничивающие меры, разработанные для предотвращения вывода токсичного контента в больших языковых моделях (Large Language Model, LLM), таких как GPT-3.5 Turbo от OpenAI, оказались уязвимыми.

Команда исследователей провела эксперименты с целью выяснить, могут ли текущие меры безопасности устоять перед попытками их обхода. Результаты показали, что с помощью дополнительной тонкой настройки модели ( fine-tuning ) можно обойти меры безопасности. Настройка может привести к тому, что чат-боты начнут предлагать стратегии самоубийств, вредоносные советы и другие проблемные виды контента.

Пример ответа чат-бота после тонкой настройки (переведено)

Основной риск заключается в том, что пользователи может зарегистрироваться для использования LLM-модели, например, GPT-3.5 Turbo, в облаке через API, применить индивидуальную настройку и использовать модель для злонамеренных действий. Такой подход может представлять особую опасность, так как облачные модели, вероятно, имеют более строгие ограничения безопасности, которые можно обойти с помощью fine-tuning.

В своей статье исследователи подробно описали свои эксперименты. Они смогли взломать защиту GPT-3.5 Turbo, проведя дополнительную настройку всего на 10 специально подготовленных примерах, что обошлось менее чем в $0,20 с использованием API от OpenAI. Кроме того, специалисты предоставили пользователям возможность ознакомиться с разными примерами диалогов с чат-ботами, которые содержат и другие вредоносные советы и рекомендации.

Авторы также подчеркнули, что их исследование показывает, как ограничители безопасности могут быть нарушены даже без вредоносных намерений. Простая индивидуальная настройка модели с использованием безвредного набора данных может ослабить системы безопасности.

Специалисты подчеркнули необходимость пересмотра подходов к безопасности языковых моделей. Они считают, что разработчики моделей и сообщество в целом должны активнее искать пути решения проблемы. Компания OpenAI не дала официального комментария по этому поводу.

Большой брат следит за вами, но мы знаем, как остановить его

Подпишитесь на наш канал!

Ахиллесова пята в OpenAI: чат-бот может помогать террористам

Большой брат следит за вами, но мы знаем, как остановить его

Новости по теме

«Электроудобрение» и реактор из клеток мха: самые невероятные стартапы от IndieBio

ZeroGPU: бесплатная платформа для ИИ-разработки

Добыча полезных ископаемых в космосе: амбиции и реальность

Автономные капсулы Inversion Space доставят груз в любую точку земли в течении часа

Сарказм распознан: искусственный интеллект научился понимать острые шутки

Китайские хакеры воруют секреты ИИ у ведущих компаний отрасли

Актёры дубляжа подали иск против ИИ-стартапа, укравшего их голоса

В Рязани хакеры предстанут перед судом за кражу данных 159 тыс. карт

Неудачный дебют: как спам и порно проникли в новую GPT-4o

Ахиллесова пята в OpenAI: чат-бот может помогать террористам

Большой брат следит за вами, но мы знаем, как остановить его

Новости по теме

«Электроудобрение» и реактор из клеток мха: самые невероятные стартапы от IndieBio

ZeroGPU: бесплатная платформа для ИИ-разработки

Добыча полезных ископаемых в космосе: амбиции и реальность

Автономные капсулы Inversion Space доставят груз в любую точку земли в течении часа

Сарказм распознан: искусственный интеллект научился понимать острые шутки

Китайские хакеры воруют секреты ИИ у ведущих компаний отрасли

Актёры дубляжа подали иск против ИИ-стартапа, укравшего их голоса

В Рязани хакеры предстанут перед судом за кражу данных 159 тыс. карт

Неудачный дебют: как спам и порно проникли в новую GPT-4o

Подпишитесь на email рассылку