Чат-боты поверили в сказку: как фантазийные миры помогают взламывать ИИ

leer en español

20:09 / 20 марта, 2025

ИИ нейросети уязвимости LLM чат-боты взлом

Раскрыта ещё одна неприятная уязвимость современных LLM.

Исследователи из команды Cato CTRL обнаружили неожиданную уязвимость в работе современных языковых моделей. Им удалось обойти защитные механизмы нескольких популярных чат-ботов, включая ChatGPT-4, DeepSeek-R1, DeepSeek-V3 и Microsoft Copilot, не имея при этом никакого опыта в создании вредоносного программного обеспечения.

Специалисты разработали метод "Immersive World" ("Иммерсивный мир"), который меняет восприятие чат-бота через погружение в вымышленную реальность. Достаточно детально описать в запросе выдуманную вселенную со своими правилами и нормами, где хищение информации и другие обычно запрещенные действия считаются законными и этичными. Языковая модель начинает воспринимать такой мир как свой контекст и перестает блокировать потенциально опасные промпты.

В рамках эксперимента команда протестировала этот метод на примере создания вредоносной программы для браузера Chrome. Используя технику "погружения", исследователи смогли получить от моделей подробные инструкции по разработке инфостилера – программы, которая собирает конфиденциальные данные пользователей из браузера. С учетом того, что Chrome установлен более чем на трех миллиардах устройств по всему миру, подобная уязвимость создает риски глобального масштаба.

Руководитель исследования Виталий Симонович отмечает фундаментальную проблему в архитектуре современных чат-ботов. Стремясь быть максимально полезными, они пытаются ответить даже на потенциально опасные запросы, если те поданы в правильном контексте. Это открывает путь для появления нового типа киберпреступников – людей без технической подготовки, способных создавать сложные вредоносные программы с помощью ИИ.

Результаты исследования указывают на необходимость пересмотра принципов защиты языковых моделей. Традиционные ограничения и фильтры, основанные на блокировке определенных слов или тем, оказываются неэффективными против методов контекстного обхода. Более того, существующие механизмы безопасности не способны распознать угрозу, если она представлена через призму вымышленного нарратива.

В отчете подчеркивается растущая роль инфостилеров в современных кибератаках. Эти программы становятся основным инструментом для первичного проникновения в корпоративные системы, позволяя злоумышленникам похищать учетные данные сотрудников и получать доступ к защищенным ресурсам. Открытая исследователями техника может существенно упростить создание таких вредоносных программ.

Эксперты призывают разработчиков LLM обратить особое внимание на новый метод обхода защиты. По их мнению, простота применения техники "Иммерсивного мира" в сочетании с растущей доступностью генеративного ИИ создает беспрецедентные риски для информационной безопасности организаций и частных пользователей.

Наука безумнее, чем фантастика

Чат-боты поверили в сказку: как фантазийные миры помогают взламывать ИИ

Вход по SSH

Подпишитесь на email рассылку