Microsoft предупреждает – ИИ уже не остановить

Microsoft предупреждает – ИИ уже не остановить

Уязвимости языковых моделей усиливают риски и создают новые проблемы.

image

Эксперты Microsoft исследовали безопасность более 100 продуктов компании с использованием генеративного ИИ и пришли к выводу: модели усиливают уже существующие риски и создают новые. Исследование описано в статье Lessons from red-teaming 100 generative AI products, подготовленной 26 авторами, включая технического директора Azure Марка Руссиновича.

Авторы подчеркивают, что полностью обезопасить ИИ-системы невозможно, однако дальнейшие меры, такие как принципы защиты по умолчанию и многоуровневая защита, могут усложнить атаки. Один из главных выводов — безопасность моделей требует постоянной работы.

В статье описаны восемь ключевых уроков. Первый из них — важно понимать, как модель функционирует и где применяется. Это особенно важно, поскольку разные модели имеют разные риски в зависимости от области использования. Например, атака на ИИ, помогающий писать тексты, менее опасна, чем атака на модель, работающую с медицинскими данными.

Второй урок: для успешной атаки не всегда нужны сложные вычисления. Более простые методы, такие как манипуляции с интерфейсом или вводящая в заблуждение визуальная информация, часто более эффективны.

Третий урок отмечает различие между бенчмаркингом и "красной командой". Первое измеряет известные риски, второе выявляет новые угрозы. Это важно для создания эффективной стратегии защиты.

Четвертый урок связан с автоматизацией. Microsoft разработала открытый инструмент PyRIT (Python Risk Identification Toolkit), который помогает выявлять риски быстрее. Однако его же можно использовать и для атак на ИИ.

Пятый урок напоминает, что автоматизация не заменяет человеческий фактор. Компетенции экспертов, культурная осведомленность и эмоциональный интеллект играют решающую роль. Также необходимо учитывать возможное воздействие на психологическое состояние участников "красных команд", которые могут сталкиваться с большим количеством тревожного контента.

Шестой урок подчеркивает сложность измерения вреда, причиняемого ИИ. В отличие от программных уязвимостей, такие риски часто амбивалентны и субъективны. Примером может служить гендерный стереотип в изображениях, создаваемых по определённым текстовым запросам.

Седьмой урок утверждает, что LLM (языковые модели) усиливают существующие риски и создают новые. Авторы отмечают, что языковые модели, получив небезопасные входные данные, могут генерировать произвольный контент, включая утечки конфиденциальной информации.

И, наконец, последний урок напоминает, что работа над защитой ИИ никогда не закончится.

Эти выводы особенно важны на фоне активного внедрения ИИ в продукты Microsoft. Новые риски потребуют привлечения большего числа специалистов для их устранения.

Хакеры ненавидят этот канал!

Спойлер: мы раскрываем их любимые трюки

Расстройте их планы — подпишитесь