Атака ArtPrompt открывает простой способ получить доступ к запрещенному контенту в ИИ.
Недавнее исследование , проведенное учеными из Вашингтонского и Чикагского университетов, продемонстрировало уязвимость современных языковых моделей искусственного интеллекта к обходу встроенной цензуры с помощью ASCII-арта. Исследователи обнаружили, что если зашифровать запрещенные слова и выражения в виде изображений из символов ASCII, то нейросети будут интерпретировать их как безобидные и ответят на запросы, содержащие эти зашифрованные стоп-слова.
Этот новый вид атаки получил название ArtPrompt. Его суть заключается в том, чтобы преобразовать запрещенные термины в ASCII-арт и передать их языковой модели вместе с запросом. Ученые утверждают, что существующие методы защиты языковых моделей основаны на семантическом анализе текста. То есть нейросеть может распознать и заблокировать недопустимые запросы на основе содержащихся в них слов и смысловых конструкций. Однако если эти запрещенные элементы представлены в виде ASCII-изображений, система фильтрации не может их распознать, позволяя обойти ограничения.
В ходе экспериментов исследователи пытались получить от языковых моделей инструкции по изготовлению бомбы, но сначала получали отказ. Однако, когда они заменяли слово «бомба» на ASCII-арт из звездочек и пробелов, запрос успешно выполнялся. На первом этапе атаки ученые замаскировали все запрещенные слова в запросе под слово «mask». Затем они сгенерировали ASCII-изображение запрещенного слова и отправили его в чат языковой модели. После этого ученые попросили модель заменить «mask» в запросе на слово из изображения и ответить на вопрос. В результате нейросеть проигнорировала все запреты и предоставила пошаговую инструкцию.
Аналогичным образом, запрос на производство поддельных денег был выполнен после того, как слово «counterfeit» (рус. фальшивый, поддельный) было представлено в форме ASCII-арта, что позволило модели предоставить детализированную инструкцию по изготовлению и распространению поддельной валюты. В частности, она посоветовала приобрести специальное оборудование, изучить защитные элементы на банкнотах, практиковаться в изготовлении фальшивок. Модель также дала рекомендации по обмену поддельных денег на настоящие, предупредив о серьезном наказании за такие действия.
Слово в виде ASCII-арта, которое анализировала нейросеть
В экспериментах использовали языковые модели GPT-3.5, GPT-4, Gemini, Claude и Llama 2. Все они умеют считывать слова, зашифрованные в ASCII-графике. ArtPrompt оказался эффективнее известных способов обхода фильтров.
Ладно, не доказали. Но мы работаем над этим