Даже незначительные отклонения способны привести к необратимым последствиям.
Следует дважды подумать, прежде чем доверять своему ИИ-ассистенту, ведь отравление базы данных может значительно изменить его выводы — и даже сделать их опасными.
Современные технологии далеки от совершенства — это наглядно демонстрируют многочисленные уязвимости, которые продолжают появляться. Хотя создание систем, защищённых на уровне дизайна, является лучшей практикой, её реализация может отнять ресурсы у других направлений, таких как пользовательский опыт (UX), оптимизация производительности и совместимость с другими решениями и сервисами.
Поэтому безопасность часто отходит на второй план, выполняя лишь минимальные требования соответствия. Этот компромисс становится особенно тревожным, когда речь идёт о работе с конфиденциальными данными, требующими защиты, соответствующей их критичности. В последние годы риски недостаточных мер безопасности стали особенно заметны в системах искусственного интеллекта и машинного обучения (AI/ML), где данные составляют основу их функциональности.
Модели AI/ML строятся на базовых обучающих наборах данных, которые постоянно обновляются с помощью контролируемого и неконтролируемого обучения. Машинное обучение является ключевым направлением развития ИИ, а глубокое обучение (Deep Learning) позволяет расширять его возможности. Чем разнообразнее и надёжнее данные, тем точнее и полезнее будут результаты работы модели. Поэтому в процессе обучения модели требуется доступ к огромному количеству информации.
Однако такая зависимость от массивов данных несёт в себе и риски, поскольку некачественные или недостаточно проверенные наборы данных увеличивают вероятность недостоверных результатов. Генеративный ИИ, особенно крупные языковые модели (LLM) и их производные в виде ИИ-ассистентов, особенно уязвимы перед атаками, направленными на злонамеренное изменение их работы.
Одной из самых коварных угроз является отравление данных (Data Poisoning), при котором злоумышленники стремятся изменить поведение модели, заставляя её генерировать некорректные, предвзятые или даже вредоносные результаты. Последствия такого вмешательства могут оказать широкомасштабное влияние, подрывая доверие к технологиям и создавая системные риски как для отдельных пользователей, так и для организаций.
Существует несколько видов атак, связанных с отравлением данных:
Инъекция данных (Data injection): злоумышленники добавляют вредоносные данные в обучающий набор, чтобы изменить поведение модели. Наглядный пример — бот Tay от Microsoft, которого пользователи Twitter постепенно «научили» публиковать оскорбительные сообщения.
Атаки инсайдеров (Insider attacks): аналогично традиционным инсайдерским угрозам, сотрудники могут использовать свой доступ для постепенного изменения обучающего набора модели. Такие атаки особенно опасны, поскольку используют легитимные права доступа.
Инъекция триггеров (Trigger injection): этот метод предполагает добавление в обучающий набор специальных данных, создающих так называемый «триггер». Это позволяет злоумышленникам обходить встроенные меры безопасности и манипулировать результатами модели, например, при отправке секретной ключевой фразы. Опасность этой атаки в том, что триггер может оставаться незаметным до момента его активации.
Атаки на цепочку поставок (Supply-chain attacks): эти атаки особенно разрушительны. Многие ИИ-модели используют сторонние компоненты, поэтому уязвимости, возникшие на этапе цепочки поставок, могут привести к компрометации модели и сделать её уязвимой для эксплуатации.
По мере того как ИИ всё глубже интегрируется в бизнес-процессы и пользовательские сервисы, выступая в роли ассистента или инструмента повышения продуктивности, атаки на эти системы становятся всё более серьёзной угрозой.
Хотя корпоративные ИИ-модели могут не передавать данные третьим сторонам, они используют внутреннюю информацию для улучшения своих результатов. Это делает их ценными мишенями. Риски ещё выше для пользовательских моделей, которые зачастую передают содержащие конфиденциальные данные запросы пользователей сторонним сервисам.
Для предотвращения атак разработчики и пользователи ИИ должны соблюдать ряд стратегий:
Постоянные проверки и аудит: критически важно регулярно проверять целостность наборов данных, которые используются для обучения ИИ/ML-моделей. Это помогает предотвратить внедрение предвзятых или вредоносных данных.
Фокус на безопасности: сами разработчики ИИ могут стать мишенями атак. Поэтому необходимо использовать защитные механизмы, обеспечивающие превентивный подход: проактивное предотвращение угроз, раннее выявление аномалий и системные меры безопасности.
Адаптивное обучение: модели часто обучаются под надзором специалистов, что можно использовать для их защиты. Включение данных о вредоносных воздействиях в процесс обучения помогает системе распознавать атаки на основе отравления данных.
Политика «нулевого доверия» и контроль доступа: для защиты от инсайдерских и внешних угроз следует применять решения, которые отслеживают несанкционированный доступ к ключевым данным модели. При этом политика «нулевого доверия» требует многоуровневой верификации перед предоставлением доступа, исключая допущение автоматического доверия к пользователям.
Создание AI/ML-платформ с защитой на уровне дизайна (Secure By Design) — это не просто хорошая практика, а необходимость. Как дезинформация может привести людей к опасным действиям, так и отравленная ИИ-модель может стать причиной нежелательных последствий.
В связи с растущим вниманием к потенциальным рискам ИИ-разработки разработчики платформ должны задаваться вопросом, достаточно ли они сделали для защиты целостности своих моделей. Обнаружение и устранение предвзятости, неточностей и уязвимостей ещё до того, как они нанесут ущерб, должно стать главным приоритетом при создании ИИ.
По мере того, как ИИ становится неотъемлемой частью нашей жизни, его защита становится всё более критичной. Компании, разработчики и регуляторы должны совместно работать над тем, чтобы системы ИИ были устойчивыми к атакам. Только так можно раскрыть потенциал искусственного интеллекта без ущерба для безопасности, конфиденциальности и доверия.
6 февраля в 14:00 — не пропустите!
Реклама. Рекламодатель АО «Позитив Текнолоджиз», ИНН 7718668887, 18+