Как хакеры по щелчку пальцев превращают нейросети в оружие?
В эпоху больших данных обучение моделей Vision Transformer (ViT) на обширных наборах данных стало стандартом для улучшения производительности в различных ИИ-задачах. Визуальные промпты (VP), которые вводят параметры для конкретных задач, позволяют эффективно адаптировать модели без полной донастройки. Однако возможные риски безопасности VP остаются неизученными.
Аналитики из отдела безопасности Tencent, а также учёные из Университета Цинхуа, Чжэцзянского университета, Исследовательского центра искусственного интеллекта и лаборатории Пэн Ченг обнаружили новую угрозу для VP в облачных сервисах. Злоумышленники могут добавить или удалить специальный токен «переключатель», чтобы скрытно переключаться между обычным и заражённым режимами работы модели.
Исследователи назвали выявленный ими метод переключаемой атакой на предварительно обученные модели (Switchable Attack Against Pre-trained Models, сокращённо SWARM).
SWARM оптимизирует промпты и токен-переключатель таким образом, чтобы без переключателя модель работала в нормальном режиме, но буквально сходила с ума при его активации.
Эксперименты показывают высокую эффективность и незаметность SWARM. В облачных сервисах злоумышленники могут управлять входными промптами, не имея доступа к пользовательским данным. В обычном режиме модель обрабатывает данные корректно, а в заражённом — успешно выполняет атаку при активации триггера.
Специалисты отмечают, что злоумышленники могут настраивать свои промпты в зависимости от данных, используя обучаемые токены после слоя встраивания. Пользователи могут применять различные техники для смягчения рисков, такие как Neural Attention Distillation (NAD) и I-BAU. Однако SWARM достигает 96% и 97% успешности соответственно, в большинстве случае обходя эти техники.
Китайские инженеры подчёркивают способность SWARM обходить обнаружение и смягчение угроз, что увеличивает его опасность для жертв. SWARM демонстрирует новые механизмы атак и стимулирует дальнейшие исследования в области защиты.
Таким образом, новое исследование поднимает вопросы о безопасности использования визуальных промптов в предварительно обученных моделях ViT и призывает к разработке новых методов защиты от подобных угроз.
Гравитация научных фактов сильнее, чем вы думаете