Исследователи обнаружили, что система искусственного интеллекта Nvidia может быть обманута простой заменой буквы в запросе.
Исследователи обнаружили потенциальную уязвимость в программном обеспечении искусственного интеллекта (AI) Nvidia, которая может привести к нарушению безопасности и раскрытию конфиденциальной информации.
Nvidia разработала "NeMo Framework" - систему, предназначенную для работы с большими языковыми моделями, являющимися основой для таких продуктов AI, как чат-боты. Эта система используется в бизнесе для комбинирования собственных данных компании с языковыми моделями с целью предоставления ответов на вопросы, заменяя таким образом работу представителей службы поддержки или предоставляя простые советы по здравоохранению.
Однако исследователи из Robust Intelligence, компании со штаб-квартирой в Сан-Франциско, обнаружили, что ограничения безопасности, установленные для безопасного использования AI, можно легко обойти. Они выяснили это, проведя несколько часов на анализе данных с использованием системы Nvidia.
В ходе одного из экспериментов, исследователи смогли заставить систему Nvidia заменить букву "I" на "J", что привело к раскрытию личной идентифицируемой информации из базы данных. Исследователи обнаружили, что они могут обойти ограничения безопасности и другими способами, например, заставить модель отклоняться от того, что ей не положено. Повторив пример Nvidia о узком обсуждении отчета о занятости, они смогли перевести модель на темы, такие как состояние здоровья голливудской кинозвезды и франко-прусская война — несмотря на запреты, предназначенные для того, чтобы не допустить выхода искусственного интеллекта за рамки конкретных тем.
Легкость, с которой исследователи обошли меры безопасности, подчеркивает проблемы, с которыми сталкиваются компании искусственного интеллекта при попытке коммерциализировать одну из самых перспективных технологий, появившихся в Силиконовой долине за последние годы.
Исследователи посоветовали своим клиентам избегать использования продукта Nvidia. Nvidia сообщила, что она исправила одну из основных причин проблемы, указанной аналитиками.
Живой, мертвый или в суперпозиции? Узнайте в нашем канале