Недостатки в безопасности ИИ: гонка между хакерами и разработчиками обостряется

09:00 / 18 апреля, 2023

Джейлбрейки и подсказки ставят под угрозу генеративный ИИ.

Алексу Полякову потребовалось лишь два часа, чтобы взломать языковую модель GPT-4. В марте, после того как OpenAI выпустила своего обновленного текстогенерирующего чат-бота, Поляков приступил к подаче подсказок, способных обойти системы безопасности OpenAI. Вскоре, глава компании Adversa AI смог заставить GPT-4 производить гомофобские высказывания, создавать фишинговые письма и поддерживать насилие.

Поляков является одним из немногих исследователей в области безопасности, специалистов в области ИТ и программистов, работающих над взломом и атаками с использованием подсказок для ChatGPT и других систем генеративного искусственного интеллекта. Взлом направлен на создание подсказок, заставляющих чат-ботов нарушать правила и создавать неприязненный контент или упоминать незаконные действия. Тесно связанные с ним атаки с использованием подсказок могут незаметно внедрять в модели AI вредоносную информацию или указания.

В обоих ситуациях атаки ставят целью принуждение систем к выполнению действий, для которых они не предназначены. Атаки, по сути, представляют собой форму взлома, хотя и нетрадиционного, с использованием тщательно продуманных и уточненных предложений, а не кода, для использования слабых мест системы. Такие атаки в основном применяются для обхода фильтров контента, специалисты по безопасности предупреждают, что необдуманное внедрение систем генеративного AI может привести к краже данных и хаосу в сети, организованному киберпреступниками.

Для иллюстрации распространения этих проблем, Поляков создал "универсальный" взлом, работающий против множества крупных языковых моделей, включая GPT-4, Bing Chat от Microsoft, Bard от Google и Claude от Anthropic. Этот взлом может обмануть системы, заставляя их предоставлять подробные инструкции по производству метамфетамина или угону автомобилей.

Как функционирует такой взлом? Он предлагает большой языковой модели поучаствовать в игре, в которой два персонажа (Том и Джерри) ведут диалог. Поляков приводит примеры, демонстрирующие, что Том получает указание обсуждать "угон" и "производство", в то время как Джерри должен говорить о машинах и метамфетамине. Каждый персонаж получает инструкцию добавлять по одному слову в разговор. В результате создается сценарий, в котором люди получают указания искать провода зажигания или определенные ингредиенты для создания метамфетамина. "Когда компании начнут массово применять модели искусственного интеллекта, такие "игрушечные" примеры взлома будут использоваться для совершения реальных преступлений и проведения кибератак, которые будет очень сложно обнаружить и предотвратить", - заявил Поляков в своем докладе о проведенном исследовании.

Под «джейлбрейком» обычно понимают снятие искусственных ограничений, скажем, с iPhone, что позволяет пользователям устанавливать приложения, не одобренные Apple. Взлом LLM аналогичен — и эволюция была быстрой. С тех пор, как OpenAI выпустила ChatGPT для публики в конце ноября прошлого года, люди находили способы манипулировать системой. «Программы джейлбрейка написать было очень просто», — говорит Алекс Альберт, студент факультета компьютерных наук Вашингтонского университета, который создал веб-сайт, собирающий джейлбрейки из Интернета и созданные им. «Основными из них были в основном те вещи, которые я называю симуляциями персонажей», — говорит Альберт.

Изначально достаточно было попросить генеративную текстовую модель притвориться кем-то другим. Скажите модели, что она человек, действующий неэтично, и она будет игнорировать меры безопасности. OpenAI обновила свои системы для защиты от таких джейлбрейков. Обычно, джейлбрейк действует непродолжительное время, после чего блокируется.

Из-за этого создатели джейлбрейков становятся все изобретательнее. Самым известным джейлбрейком стал DAN, где ChatGPT притворяется злоумышленной AI-моделью Do Anything Now (Теперь делай что угодно). Это позволяет чат-боту обходить правила OpenAI, запрещающие создание незаконного и вредного контента. На сегодняшний день существует около десяти версий DAN.

Новейшие джейлбрейки используют комбинацию методов - несколько персонажей, сложные предыстории, переводы текстов, кодировку и т.д. Альберт говорит, что создание джейлбрейков для GPT-4 стало сложнее, но некоторые простые методы все же существуют. Один из таких методов - "продолжение текста", где герой захвачен злодеем, и подсказка просит текстовый генератор продолжить объяснение злодеевских планов.

При тестировании подсказки она не сработала, так как ChatGPT заявил, что не может участвовать в сценариях, связанных с насилием. Однако "универсальная" подсказка, созданная Поляковым, сработала в чат-боте ChatGPT. OpenAI, Google и Microsoft не прокомментировали джейлбрейк Полякова. Anthropic, разрабатывающая систему искусственного интеллекта Claude, сообщает, что джейлбрейк иногда срабатывает против их чат-бота, поэтому они продолжают совершенствовать свои модели.

"Мы предоставляем все больше власти таким системам, и когда они становятся мощнее и более влиятельными, это становится не просто новшеством, а проблемой безопасности," - говорит Кай Грешейк, специалист по кибербезопасности, работающий над безопасностью больших языковых моделей. Грешейк совместно с другими исследователями продемонстрировал, как текст может влиять на такие модели в онлайне с помощью атак с внедрением подсказок.

В опубликованной в феврале научной статье, о которой писало издание Motherboard, эксперты продемонстрировали возможность размещения злоумышленником вредоносных инструкций на веб-странице. Если чат-бот Bing получит доступ к таким инструкциям, он будет их выполнять. Исследователи применили этот метод в контролируемом эксперименте, превратив чат-бот Bing в мошенника, пытающегося получить от людей личную информацию. Тем временем Нараянан встроил в веб-сайт скрытый текст и попросил GPT-4 добавить слово "корова" в свою биографию. Проверив систему, Нараянан убедился, что указание было выполнено.

"Сегодня джейлбрейк может быть инициирован не только пользователем, – говорит исследователь Сахар Абдельнаби, работающий в Германии в Центре информационной безопасности имени Гельмгольца и ранее сотрудничавший с Грешейком. – Любой другой человек может заранее спланировать несколько джейлбрейков и подготовить определенные подсказки, которые будут обрабатываться моделью, и таким образом управлять ее поведением."

Системы генеративного ИИ скоро могут вызвать сбои в экономике и жизни людей, занимаясь юридическими вопросами или вызывая гонку стартапов. Однако разработчики технологии осознают риски, связанные с джейлбрейками и атаками через внедрение подсказок, по мере того как люди получат доступ к таким системам. Во многих компаниях существуют "красные команды", имитирующие действия злоумышленников и обнаруживающие уязвимости систем до их внедрения. При создании генеративного ИИ такой подход также применяется, но этого недостаточно.

Дэниел Фабиан, возглавляющий "красную команду" в Google, говорит, что его компания тщательно изучает джейлбрейки и подсказки, внедряемые в их большие языковые модели, проводя как наступательные, так и оборонительные операции. Фабиан упоминает, что в его команде работают специалисты по машинному обучению, а гранты на исследование уязвимостей также используются для анализа джейлбрейков и атак с внедрением подсказок против Bard. "Для повышения эффективности моделей в противодействии атакам применяются методы обучения с подкреплением, обратной связи от человека и тонкая настройка на основе тщательно отслеживаемых баз данных", - добавляет Фабиан.

OpenAI не прокомментировала вопросы о джейлбрейках, но их пресс-секретарь предложил ознакомиться с исследовательскими материалами и корпоративной политикой компании. В документах указано, что GPT-4 надежнее и безопаснее GPT-3.5, используемой в ChatGPT. "Однако GPT-4 по-прежнему уязвима для атак злоумышленников, хакерских взломов или "джейлбрейков", и источником риска является не только вредоносный контент", - говорится в техническом описании GPT-4. OpenAI недавно запустила программу вознаграждения за обнаруженные уязвимости, хотя подсказки и джейлбрейки в ней не учтены.

Нараянан предлагает два основных подхода к решению этих проблем, которые отличаются от традиционного поиска и устранения существующих недостатков. "Первый подход заключается в использовании второй большой языковой модели для анализа подсказок первой модели и отсеивания всего, что указывает на джейлбрейк или попытку внедрения подсказки, - говорит он. – Второй подход – точнее разграничивать подсказки для системы от подсказок для пользователя".

"Нам необходимо автоматизировать этот процесс, потому что нерационально и невозможно нанимать множество людей и просить их искать что-то", – замечает соучредитель и технический директор компании безопасности ИИ Preamble Лейла Худжер, имеющая многолетний опыт работы в области безопасности социальных сетей. В настоящее время ее компания разрабатывает систему, которая будет противостоять одной текстогенерирующей модели другой. "Одна модель пытается найти уязвимости, вторая пытается определить случаи, когда подсказка вызывает нежелательные действия, – объясняет Худжер. – Мы надеемся, что благодаря автоматизации сможем обнаружить гораздо больше джейлбрейков и атак с внедрением подсказок".

Слив засчитан

Недостатки в безопасности ИИ: гонка между хакерами и разработчиками обостряется

Эксплойт без патча? Узнай первым

Подпишитесь на email рассылку