Джейлбрейки – всё: Anthropic бросила вызов взломщикам и одержала победу

Джейлбрейки – всё: Anthropic бросила вызов взломщикам и одержала победу

Новый метод защиты оказался куда эффективнее, чем кто-либо ожидал.

image

Американская компания Anthropic представила новый способ защиты больших языковых моделей (LLM) от так называемых «джейлбрейков» — методов обхода встроенных ограничений, которые могут заставить ИИ выполнять запрещённые действия.

Большинство LLM обучены отказывать в ответах на опасные или неэтичные запросы. Например, Claude от Anthropic не отвечает на вопросы о химическом оружии, а DeepSeek R1 избегает обсуждения китайской политики. Однако существует множество способов обойти эти запреты — от ролевых сценариев до хитрых манипуляций с текстом запроса, таких как необычные заглавные буквы или замена букв цифрами.

Подобные атаки называются «адверсариальными» — это преднамеренные попытки заставить нейросеть выдать неожиданный ответ. Несмотря на десятилетние исследования, полностью защитить модели от джейлбрейков до сих пор не удалось.

Anthropic пошла другим путём: вместо доработки самих моделей компания создала внешний барьер, блокирующий попытки взлома ещё на стадии запроса. Особое внимание уделено так называемым «универсальным джейлбрейкам» — техникам, которые способны полностью отключить защитные механизмы. Один из самых известных примеров — «Do Anything Now» (DAN), заставляющий ИИ «забыть» о встроенных ограничениях.

Для создания системы фильтрации Anthropic использовала подход с синтетическими данными. Claude генерировал тысячи пар допустимых и недопустимых запросов и ответов, которые затем модифицировались с учётом методов, популярных среди взломщиков. Эти данные стали основой для тренировки фильтра, который распознаёт и блокирует потенциально опасные взаимодействия.

Эффективность технологии проверялась двумя способами. Во-первых, Anthropic организовала программу баг-баунти, предложив 15 000 долларов каждому, кто сможет обойти защиту и заставить Claude ответить на 10 запрещённых вопросов. За 3 000 часов тестирования 183 участника не смогли преодолеть фильтр более чем на половине вопросов.

Во втором испытании компания подвергла систему 10 000 автоматизированных атак, имитирующих методы джейлбрейкинга. Без защиты модели 86% атак оказались успешными, но с фильтром этот показатель снизился до 4,4%.

«Такого масштаба тестирования редко встретишь», — отметил Алекс Робей из Университета Карнеги-Меллон, изучающий джейлбрейки. Он также разработал собственный метод защиты — SmoothLLM, который вводит статистический шум для нарушения работы уязвимостей моделей. Он считает, что для максимальной безопасности следует использовать комбинацию различных подходов.

Несмотря на впечатляющие результаты, защита от Anthropic не лишена недостатков. Робей отмечает, что фильтр иногда блокирует безобидные вопросы по биологии и химии. Кроме того, работа системы требует на 25% больше вычислительных мощностей, что увеличивает стоимость её использования.

Эксперты уверены, что гонка между разработчиками ИИ и любителями джейлбрейка ещё не окончена. Например, Юэкан Ли из Университета Нового Южного Уэльса указывает, что новые методы, такие как шифрование запроса заменой букв, могут обойти существующую защиту.

Деннис Клинкхаммер из Университета прикладных наук FOM в Кёльне подчёркивает важность использования синтетических данных: «Это позволяет оперативно обновлять защитные механизмы, адаптируясь к новым угрозам» .

Anthropic продолжает совершенствовать технологию и приглашает исследователей к тестированию. «Мы не заявляем, что система неприступна, — говорит глава команды Мринанк Шарма. — Вопрос в том, сколько усилий потребуется для обхода защиты. Если барьер достаточно высок, большинство даже не станет пытаться».

Инновации PT Application Inspector для безопасной разработки в IDE

6 февраля в 14:00 — не пропустите!

Регистрация открыта

Реклама. Рекламодатель АО «Позитив Текнолоджиз», ИНН 7718668887, 18+