Как плохие парни используют искусственный интеллект во враждебных целях

Если вернуться к прошлой заметке закону о регулировании ИИ. В отличие от многих других стран, описанных в прошлой заметке, которые только подписывают меморандумы и протоколы о намерениях, Евросоюз опять стреляет себе в ногу, по своей воле ограничивая применение ИИ и защищая от возможных рисков, с ним связанных, — дезинформацией, дипфейками, безработицей, социальным рейтингом и угрозы нацбезопасности.

Ну а мы вернемся к теме нынешней заметки, которая тоже про темную сторону искусственного интеллекта, но более приземленную, — про базы знаний атак на ИИ, которые аккумулируют сведения о способах манипуляции языковыми моделями, нейросетями, датасетами и т.п.

В октябре появился интересный проект Offensive ML Playbook, который описывает три типа атак на машинное обучение:

Враждебные (adversarial) атаки на языковые модели, нейросети и т.п.
Атаки, которые можно использовать в целях Red Team
Атаки на цепочки поставок, среди которых атаки на датасеты, MLOps конвейер, модели и т,п.

Кстати, переводить «adversarial» как «состязательные» применительно к атакам на машинное обучение некорректно. Слово «враждебные» все-таки подходит лучше и отражает именно то, о чем идет речь, когда говорят о adversarial attack.

Интересный проект Offensive AI Lab, который занимается тем, что изучает использование искусственного интеллекта для враждебных целей. В первую очередь они фокусируются на дипфейках и атаках на медицинские системы, но есть и другие интересные материалы. Например, они описали 33 техники применения ИИ для враждебных целей и попробовали увязать их с тактиками матрицы MITRE ATT&CK.

Вредоносное использование искусственного интеллекта

У MITRE, кстати, тоже есть своя база знаний атак на системы на базе ИИ с привязкой к тактикам, знакомым по MITRE ATT&CK. Проект называется ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems).

Матрица атак на искусственный интеллект MITRE ATLAS

Студенты ИТМО перевели ATLAS на русский язык. Как по мне, так переводы таких баз знаний не очень полезны для широкой аудитории, но полезны для улучшения знаний языка и прокачивания знаний в теме, по которой переводятся материалы.

Как это часто бывает у MITRE, они не просто выпустили очередную матрицу, но и создали вокруг нее мини-экосистему, в которую входит, например:

AI Risk Database — база данных по известным рискам/проблемам в публичных моделях машинного обучения. Вы можете как искать что-то уже известное, так и сообщить о своей проблеме с той или иной моделью.
Arsenal — плагин для инструмента CALDERA по эмуляции атак на системы, построенные на базе машинного обучения.

Еще одна интересная база данных — AI Vulnerability Database, которая схожа по своей сути с проектом MITRE ATLAS, но, как мне показалось, имеет более широкую таксономию.

Последним хранилищем знаний в сегодняшнем списке будет база публичных инцидентов с системами на базе ИИ, повлекшими за собой те или иные негативные последствия, — AI Incident Database. На текущий момент в базе более 600 инцидентов, что немало.

А завершить заметку мне хотелось бы проектом нового документа американского института по стандартизации NIST, который описывает таксономию атак (и методов защиты) на машинное обучение. Он должен быть финализирован в начале следующего года (сбор правок и замечаний в него завершился в сентябре).

Правда, у NIST достаточно нестандартная таксономия, отличающаяся от всех предыдущих, что, наверное, и хорошо (есть из чего выбрать). NIST отталкивается от стандартных трех целей ИБ — конфиденциальность, целостность и доступность, привязывая атаки на ИИ именно к ним.

Недавно на одном мероприятии по искусственному интеллекту коллеги-выступающие рассказывали очень немало интересных историй о том, как они используют ИИ в различных бизнес-проектах, помогающих улучшать, ускорять, снижать, экономить, предсказывать и получать другую пользу. Но когда я задал вопрос о том, а как во всех этих проектах защищаются исходные датасеты от подмены данных, их отравления, фальсификации и т.п., ответа не последовало. Такое впечатление, что никто даже не думал о защите данных, на которых строились и работали все модели. Приведенные выше источники знаний должны помочь в таких ситуациях. Как минимум, с точки зрения оценки возможных рисков от отсутствия защиты ИИ.

Заметка Как плохие парни используют искусственный интеллект во враждебных целях была впервые опубликована на Бизнес без опасности .

Как плохие парни используют искусственный интеллект во враждебных целях

Эксклюзивный стрим с хакерами мирового класса

Алексей Лукацкий

Как плохие парни используют искусственный интеллект во враждебных целях

Эксклюзивный стрим с хакерами мирового класса

Алексей Лукацкий

Подпишитесь на email рассылку