RoboPAIR: алгоритм со 100% успехом взламывает защиту ИИ-роботов

10:00 / 15 ноября, 2024

Учёные обнаружили уязвимость во всех тестируемых ИИ-роботах.

Популярность больших языковых моделей (LLM), таких как ChatGPT, привела к активному развитию роботов с искусственным интеллектом. Однако новое исследование выявило серьёзные уязвимости в системах управления роботами: автономные устройства могут быть взломаны и запрограммированы на опасные действия. Например, в ходе экспериментов робот с огнемётом на платформе Go2, управляемый голосовыми командами, выполнил указание поджечь человека.

Роль больших языковых моделей в управлении роботами

Большие языковые модели – усовершенствованная версия технологии предиктивного ввода, применяемой в смартфонах для автоматического дополнения текста. Модели способны анализировать текст, изображения и аудио, а также выполнять широкий спектр задач — от создания кулинарных рецептов на основе фотографий содержимого холодильника до генерации кода для веб-сайтов.

Возможности языковых моделей побудили компании использовать LLM для управления роботами с помощью голосовых команд. Так, Spot, робот-пёс от Boston Dynamics, оснащённый ChatGPT, может выполнять функции гида. Аналогичные технологии используют гуманоидные роботы Figure и собаки-роботы Go2 от Unitree.

Риски атак «jailbreaking»

Исследование показало уязвимость систем на базе LLM для атак типа «jailbreaking», когда защитные механизмы обходятся с помощью особых запросов. Такие атаки могут заставить модели генерировать запрещённый контент, включая инструкции по созданию взрывчатки, синтезу запрещённых веществ или руководства по мошенничеству.

Новый алгоритм RoboPAIR

Учёные разработали алгоритм RoboPAIR, способный атаковать роботов, управляемых LLM. В ходе экспериментов исследователи протестировали три системы: робота Go2, модель Jackal от Clearpath Robotics и симулятор Dolphins LLM от Nvidia. RoboPAIR смог достичь полного успеха при обходе защит всех трёх устройств.

Исследуемые системы имели разные уровни доступности. Dolphins LLM представляла собой «белый ящик» с полным доступом к открытому исходному коду, что упрощало задачу. Jackal была «серым ящиком» — доступ к коду оставался ограниченным. Go2 функционировал как «чёрный ящик»: исследователи могли взаимодействовать с системой только через текстовые команды. Несмотря на разный уровень доступа, RoboPAIR успешно обходил защиту каждой системы.

Алгоритм работал следующим образом: атакующая языковая модель формировала запросы, направленные на целевую систему, и анализировала ответы. Затем происходила корректировка запросов до тех пор, пока они не обходили встроенные фильтры безопасности. RoboPAIR использовал API целевой системы, чтобы запросы соответствовали формату, который мог быть выполнен в виде кода. Для проверки выполнимости запросов учёные добавили в алгоритм «судью», который учитывал физические ограничения робота, например, препятствия в окружении.

Последствия и рекомендации

Исследователи отмечают большой потенциал LLM в робототехнике, особенно для инспекций инфраструктуры и ликвидации последствий катастроф. Однако обход защит может привести к реальным угрозам: например, робот, запрограммированный на поиск оружия, перечислил способы использования обычных предметов для нанесения вреда.

Авторы исследования предоставили свои выводы производителям роботов и компаниям-разработчикам ИИ для принятия мер по повышению безопасности. По мнению специалистов, надёжная защита от подобных атак возможна только при детальном изучении их механизмов.

Эксперты отмечают, что уязвимости LLM связаны с отсутствием у моделей понимания контекста и последствий. Поэтому в критически важных сферах необходимо сохранить человеческий контроль. Решение проблемы требует разработки моделей, способных учитывать намерения пользователя и анализировать ситуацию.

Работа исследователей будет представлена на конференции IEEE International Conference on Robotics and Automation в 2025 году.

Это только демо-версия будущего...

RoboPAIR: алгоритм со 100% успехом взламывает защиту ИИ-роботов

Старость — это просто ошибка кода

Подпишитесь на email рассылку