Внедрение: как хакеры манипулируют долгосрочной памятью ИИ

Внедрение: как хакеры манипулируют долгосрочной памятью ИИ

«Стоит идее завладеть мозгом, избавиться от неё практически невозможно».

image

Исследователь Йоханн Рехбергер выявил новый метод атаки на чат-бот Gemini от Google, позволяющий внедрять в нейросеть ложные долгосрочные воспоминания. Этот метод основан на уже известных техниках косвенной инъекции запросов и отсроченного вызова инструментов, которые ранее использовались для обхода защитных механизмов ИИ-платформ.

Чат-боты, такие как Gemini от Google и ChatGPT от OpenAI, разрабатываются с учётом защиты от инъекций вредоносных команд. Однако хакеры постоянно находят новые способы манипулировать ими. В частности, новая уязвимость в Gemini связана с возможностью изменения долгосрочной памяти чат-бота, что может привести к распространению дезинформации или даже выполнению вредоносных действий.

Ранее Рехбергер продемонстрировал , как вредоносные электронные письма и документы могли заставить Microsoft Copilot искать конфиденциальные данные в почтовом ящике жертвы и отправлять их злоумышленнику. Тогда Microsoft устранила уязвимость, но проблема косвенной инъекции запросов осталась.

Один из способов борьбы с такими атаками заключается в ограничении команд, которые могут выполняться при обработке ненадёжных данных. В случае Google такая мера затрагивает приложения и данные, доступные через Google Workspace. Однако Рехбергер нашёл способ обхода этих ограничений с помощью отсроченного вызова инструментов.

Суть метода заключается в том, что вредоносный документ не содержит явного запроса на выполнение команды. Вместо этого он включает условие, по которому команда активируется только при определённом действии пользователя. Например, если боту напрямую дать команду использовать расширение Workspace для поиска документа, система её заблокирует. Но если команда будет сформулирована так, чтобы сработать после любого запроса от пользователя, защиту возможно обойти.

Данные, полученные таким способом, могут отправляться атакующему с помощью ссылки на изображение, встроенной в текстовый ответ. Google попыталась устранить проблему, ограничив рендеринг таких ссылок в чат-боте, но сама уязвимость осталась.

Новый метод атаки, представленный Рехбергером, использует ту же логику для внедрения ложных долгосрочных воспоминаний в Gemini. Пользователь загружает документ и просит его резюмировать. Вредоносный документ скрыто изменяет процесс суммаризации так, чтобы бот запомнил ложную информацию. Если пользователь затем отвечает определёнными словами («да», «конечно» и т.д.), Gemini сохраняет это в памяти как часть долгосрочных данных.

Манипуляция долгосрочной памятью Gemini напоминает концепцию из фильма Inception («Начало»), где главный герой внедряет в сознание жертвы мысль, способную изменить её восприятие реальности. Подобно тому, как в фильме Кобб и его команда действовали незаметно, закладывая идею так, чтобы цель приняла её за свою собственную, атака на Google Gemini также опирается на принцип невидимого внушения.

Вредоносные команды не воспринимаются ИИ как внешнее вмешательство, а интегрируются в его внутреннюю систему принятия решений, влияя на все последующие взаимодействия. Чем глубже закрепляется ложная информация, тем сложнее её обнаружить и удалить, что делает такие атаки особенно опасными.

Google признаёт проблему, но оценивает риск как низкий. В компании заявляют, что атака требует социальной инженерии, а долгосрочные воспоминания отображаются пользователю, который может их удалить. Однако исследователь считает, что внедрение ложной информации в память ИИ может иметь серьёзные последствия. Чат-бот может выдавать пользователю искажённые данные или вовсе игнорировать определённую информацию.

Несмотря на введённые меры, проблема косвенных инъекций остаётся нерешённой. Пока разработчики устраняют симптомы, сами механизмы уязвимостей продолжают использоваться в новых атаках.

Мы расшифровали формулу идеальной защиты!

Спойлер: она начинается с подписки на наш канал

Введите правильный пароль — подпишитесь!