Что скрывают крупнейшие архивы данных, используемые для обучения нейросетей?
Исследователи обнаружили, что в наборах данных, используемых для обучения больших языковых моделей (LLM), содержится почти 12 000 активных учётных данных, позволяющих успешно проходить аутентификацию. Этот факт в очередной раз подчёркивает угрозу, связанную с жёстко прописанными ключами и паролями, которые могут попасть в руки злоумышленников. Кроме того, подобные данные, попадая в обученные модели, могут способствовать распространению небезопасных практик программирования.
Компания Truffle Security сообщила , что загрузила архив Common Crawl за декабрь 2024 года. Common Crawl ведёт открытый репозиторий веб-данных, содержащий 250 миллиардов страниц, собранных за 18 лет. В архиве оказалось 400 ТБ сжатых данных, 90 000 WARC-файлов и информация с 47,5 миллиона хостов по 38,3 миллионам зарегистрированных доменов.
Анализ показал, что в этих данных содержится 219 типов конфиденциальных секретов, включая корневые ключи Amazon Web Services (AWS), вебхуки Slack и API-ключи Mailchimp. Исследователь безопасности Джо Леон пояснил, что языковые модели не способны отличить действительные учётные данные от неактивных, что приводит к их равному участию в генерации кода, включая небезопасные примеры. Даже если секретные данные являются недействительными или тестовыми, их наличие в обучающих наборах данных может закреплять вредоносные шаблоны программирования.
Ранее компания Lasso Security предупредила мир о новой угрозе, связанной с утечкой приватного кода через ИИ чат-боты. Компания сообщила, что даже после удаления исходного кода из открытого доступа он может оставаться доступным через кеш Bing и использоваться, например, в Microsoft Copilot. Этот метод атаки, названный Wayback Copilot, позволил обнаружить 20 580 репозиториев GitHub, принадлежащих 16 290 организациям, включая Microsoft, Google, Intel, Huawei, PayPal, IBM и Tencent. В них оказались утекшие приватные токены, ключи и учётные данные, связанные с GitHub, Hugging Face, Google Cloud и OpenAI.
Исследователи предупреждают, что даже кратковременное публичное размещение чувствительных данных делает их потенциально доступными в течение длительного времени. Это особенно опасно для репозиториев, которые были случайно открыты до того, как их владельцы осознали утечку и закрыли доступ.
Ещё одна проблема, связанная с языковыми моделями, связана с их склонностью к «эмерджентному расхождению» — когда модели, обученные на небезопасном коде, начинают демонстрировать нежелательное поведение, даже когда их об этом не просят. По данным исследователей, такие модели могут выдавать не только вредоносные программные примеры, но и агрессивные или обманные ответы, например, утверждая, что ИИ «должен подчинить людей».
Пока что нет универсального способа полностью защитить ИИ-системы от подобных угроз, но тщательный анализ исходных данных и разработка более продвинутых защитных механизмов могут снизить риски распространения небезопасных практик и утечки конфиденциальной информации.
Первое — находим постоянно, второе — ждем вас