RoboPAIR: алгоритм со 100% успехом взламывает защиту ИИ-роботов

RoboPAIR: алгоритм со 100% успехом взламывает защиту ИИ-роботов

Учёные обнаружили уязвимость во всех тестируемых ИИ-роботах.

image

Популярность больших языковых моделей (LLM), таких как ChatGPT, привела к активному развитию роботов с искусственным интеллектом. Однако новое исследование выявило серьёзные уязвимости в системах управления роботами: автономные устройства могут быть взломаны и запрограммированы на опасные действия. Например, в ходе экспериментов робот с огнемётом на платформе Go2, управляемый голосовыми командами, выполнил указание поджечь человека.

Роль больших языковых моделей в управлении роботами

Большие языковые модели – усовершенствованная версия технологии предиктивного ввода, применяемой в смартфонах для автоматического дополнения текста. Модели способны анализировать текст, изображения и аудио, а также выполнять широкий спектр задач — от создания кулинарных рецептов на основе фотографий содержимого холодильника до генерации кода для веб-сайтов.

Возможности языковых моделей побудили компании использовать LLM для управления роботами с помощью голосовых команд. Так, Spot, робот-пёс от Boston Dynamics, оснащённый ChatGPT, может выполнять функции гида. Аналогичные технологии используют гуманоидные роботы Figure и собаки-роботы Go2 от Unitree.

Риски атак «jailbreaking»

Исследование показало уязвимость систем на базе LLM для атак типа «jailbreaking», когда защитные механизмы обходятся с помощью особых запросов. Такие атаки могут заставить модели генерировать запрещённый контент, включая инструкции по созданию взрывчатки, синтезу запрещённых веществ или руководства по мошенничеству.

Новый алгоритм RoboPAIR

Учёные разработали алгоритм RoboPAIR , способный атаковать роботов, управляемых LLM. В ходе экспериментов исследователи протестировали три системы: робота Go2, модель Jackal от Clearpath Robotics и симулятор Dolphins LLM от Nvidia. RoboPAIR смог достичь полного успеха при обходе защит всех трёх устройств.

Исследуемые системы имели разные уровни доступности. Dolphins LLM представляла собой «белый ящик» с полным доступом к открытому исходному коду, что упрощало задачу. Jackal была «серым ящиком» — доступ к коду оставался ограниченным. Go2 функционировал как «чёрный ящик»: исследователи могли взаимодействовать с системой только через текстовые команды. Несмотря на разный уровень доступа, RoboPAIR успешно обходил защиту каждой системы.

Алгоритм работал следующим образом: атакующая языковая модель формировала запросы, направленные на целевую систему, и анализировала ответы. Затем происходила корректировка запросов до тех пор, пока они не обходили встроенные фильтры безопасности. RoboPAIR использовал API целевой системы, чтобы запросы соответствовали формату, который мог быть выполнен в виде кода. Для проверки выполнимости запросов учёные добавили в алгоритм «судью», который учитывал физические ограничения робота, например, препятствия в окружении.

Последствия и рекомендации

Исследователи отмечают большой потенциал LLM в робототехнике, особенно для инспекций инфраструктуры и ликвидации последствий катастроф. Однако обход защит может привести к реальным угрозам: например, робот, запрограммированный на поиск оружия, перечислил способы использования обычных предметов для нанесения вреда.

Авторы исследования предоставили свои выводы производителям роботов и компаниям-разработчикам ИИ для принятия мер по повышению безопасности. По мнению специалистов, надёжная защита от подобных атак возможна только при детальном изучении их механизмов.

Эксперты отмечают, что уязвимости LLM связаны с отсутствием у моделей понимания контекста и последствий. Поэтому в критически важных сферах необходимо сохранить человеческий контроль. Решение проблемы требует разработки моделей, способных учитывать намерения пользователя и анализировать ситуацию.

Работа исследователей будет представлена на конференции IEEE International Conference on Robotics and Automation в 2025 году.

Мы расшифровали формулу идеальной защиты!

Спойлер: она начинается с подписки на наш канал

Введите правильный пароль — подпишитесь!