Тысячи ИИ-инструментов с конфиденциальными данными оказались в открытом доступе.
Тысячи инструментов машинного обучения, включая разработки крупных технологических компаний, оказались доступны в интернете, что позволяет любому взаимодействовать с ними и потенциально раскрывать конфиденциальные данные. Исследователь в области безопасности поделился своими находками с 404 Media, что вызвало обеспокоенность относительно безопасности таких инструментов.
В своём исследовании ведущий инженер по безопасности Reddit Чаран Акири отметил, что среди утечек могут быть не только модели машинного обучения, но и наборы обучающих данных, гиперпараметры и даже необработанные данные, использованные для создания моделей. По словам Акири, неправильная конфигурация таких систем позволяет посторонним загружать или запускать чувствительные модели и наборы данных. Инженер подчеркнул, что такие платформы предназначены исключительно для внутреннего использования.
К числу уязвимых инструментов относятся MLflow, Kubeflow и TensorBoard, которые широко применяются для обучения и развёртывания генеративных ИИ-моделей в облаке, а также для визуализации их результатов. Из-за неправильной настройки многие компании невольно предоставляют доступ к этим инструментам, что может привести к серьёзным утечкам.
Одной из таких компаний является японский производитель полупроводников Renesas Electronics. Исследователю удалось выяснить принадлежность одного из инструментов к Renesas по данным сертификатов на панели управления. После того как 404 Media связались с Renesas, компания оперативно устранила проблему. Однако комментариев по ситуации не последовало.
Акири также отметил, что его работа затронула лишь небольшую часть проблемы: вероятно, есть ещё множество компаний, чьи инструменты остаются уязвимыми, но их владельцев пока не удалось идентифицировать.
Когда представители издания получили доступ к нескольким примерам MLflow, размещённым в открытом доступе, им предоставлялась возможность создавать новые запуски и исследовать предыдущие эксперименты пользователей. По данным Акири, в интернете может находиться около 5000 уязвимых экземпляров MLflow.
Одно найти легче, чем другое. Спойлер: это не темная материя