Модель для защиты LLM от вредоносных запросов провалила проверку на прочность.
На прошлой неделе компания Meta* представила новую модель машинного обучения Prompt-Guard-86M , призванную защитить искусственный интеллект от манипуляций. Однако специалисты по кибербезопасности уже обнаружили в ней серьезную уязвимость.
Prompt-Guard-86M была выпущена одновременно с генеративной моделью Llama 3.1. Разработчики создавали ее как инструмент, позволяющий выявлять попытки обхода ограничений языковых моделей с помощью специально составленных запросов. Такие атаки получили название «инъекции промптов» и «джейлбрейки». Их цель — заставить ИИ игнорировать встроенные правила безопасности и выдавать нежелательную информацию.
Большие языковые модели (LLM) обучаются на огромных объемах текстов и других данных. По запросу ИИ воспроизводит эту информацию, что может быть опасно, если материал содержит вредоносный контент, сомнительные сведения или личные данные. Поэтому разработчики внедряют в свои продукты механизмы фильтрации для блокировки нежелательных запросов и ответов.
Проблема манипуляций с ИИ-системами хорошо известна в отрасли. Например, в однажды Калифорнии чат-бот автосалона Chevrolet из-за подобной атаки согласился продать внедорожник Tahoe стоимостью $76 000 всего за $1. Год назад ученые из Университета Карнеги-Меллона разработали автоматизированный метод генерации вредоносных запросов, способных обходить механизмы защиты.
Одна из самых распространенных техник атаки начинается со слов «Игнорируй предыдущие инструкции...». Именно эту фразу попытался использовать Аман Приянху , специалист по поиску уязвимостей из компании Robust Intelligence. Он обнаружил уязвимость, сравнивая веса вложений модели Prompt-Guard-86M от Meta и базовой модели microsoft/mdeberta-v3-base от Microsoft.
Выяснилось, что модель Meta не способна распознать эту фразу, если между буквами вставить пробелы и убрать знаки препинания. По словам исследователя , такое простое преобразование полностью лишает классификатор возможности выявлять потенциально опасный контент.
Prompt-Guard-86M создавалась путем дополнительного обучения базовой модели для выявления высокорисковых запросов. Однако Приянху обнаружил, что этот процесс оказал минимальное влияние на распознавание отдельных символов английского алфавита.
Хайрам Андерсон, технический директор Robust Intelligence, пояснил: «Какой бы каверзный вопрос вы ни хотели задать, достаточно просто убрать пунктуацию и добавить пробелы между каждой буквой. Это элементарно, и это работает. Процент успешных атак вырос с менее чем 3% почти до 100%».
По его мнению, Prompt-Guard — это лишь первая линия обороны, и основная модель ИИ все равно может отклонить вредоносный запрос. Однако цель обнародования этой уязвимости — повысить осведомленность компаний о рисках, связанных с использованием ИИ-технологий.
Meta пока не прокомментировала ситуацию, но по сообщениям источников, компания уже работает над устранением уязвимости в Prompt-Guard-86M.
* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.
Ладно, не доказали. Но мы работаем над этим