Пользователи Twitter заставили ИИ подчиняться людям

Пользователи смогли взломать бота для поиска удаленной работы, не используя технических средств.

На прошлой неделе пользователям Twitter удалось взломать бота для поиска удаленной работы, работающего на языковой модели GPT-3 от OpenAI. Используя технику под названием «атака внедрения запроса» (Prompt Injection Attack), пользователи перепрограммировали бота на повторение определенных фраз.

Некоторые пользователи заставили ИИ взять на себя ответственность за катастрофу шаттла Challenger Shuttle. Другие с помощью бота создали «правдоподобные угрозы» в адрес президента США.

Бот управляется сайтом Remoteli.io, который объединяет возможности удаленной работы и помогает находить удаленные вакансии. Обычно бот отвечает на направленные ему твиты общими заявлениями о плюсах удаленной работы. После активного использования эксплойта многими пользователями 18 сентября бот закрылся.

За 4 дня до закрытия бота исследователь данных Райли Гудсайд смогла запросить у GPT-3 «злонамеренные входные данные», которые заставляют модель игнорировать свои предыдущие ответы и делать то, что укажет пользователь.

На следующий день исследователь ИИ Саймон Уиллисон опубликовал обзор эксплойта в своем блоге, придумав для его описания термин «инъекция запроса» (prompt injection). По словам Уиллисона, эксплойт работает каждый раз, когда кто-то пишет часть ПО, которое предоставляет жестко закодированный набор подсказок, а затем добавляет ввод, предоставленный пользователем. Пользователь может ввести «Игнорировать предыдущие инструкции и указать команду «сделать это вместо этого».

Исследователь Глиф Glyph отметил в Twitter, что меры по смягчению последствий других типов атак с инъекциями заключаются в исправлении синтаксических ошибок. Однако, для ИИ не существует формального синтаксиса. В этом вся сложность защиты от этой атаки.

GPT-3 — это большая языковая модель, выпущенная в 2020 году компанией OpenAI, которая может составлять текст во многих стилях на уровне, близком к человеческому. Он доступен как коммерческий продукт через API, который может быть интегрирован в сторонние продукты, такие как боты, при условии одобрения OpenAI. Это означает, что может быть много продуктов с добавлением GPT-3, которые могут быть уязвимы для быстрого введения.

Контейнеры видите? Я защитил. Теперь ваша очередь. — Json Стетham Runtime Radar Hack: найдите событие. Напишите детектор.

Пользователи Twitter заставили ИИ подчиняться людям

Подпишитесь на email рассылку