Встроенные ограничения не смогли защитить нейросеть от атак.
Марко Фигероа, менеджер программы bug bounty в сфере генеративного искусственного интеллекта компании Mozilla, раскрыл новую уязвимость во встроенных защитных механизмах ChatGPT-4o. Информация была опубликована через программу 0Din (0Day Investigative Network), запущенную Mozilla в июне 2024 года.
Программа 0Din специализируется на поиске уязвимостей в крупных языковых моделях и технологиях глубокого обучения. За обнаружение критических проблем безопасности исследователям предлагается вознаграждение до 15 000 долларов.
Найденная уязвимость позволяет обойти ограничения безопасности ChatGPT-4o, которые предотвращают генерацию потенциально вредоносного контента. Метод основан на кодировании вредоносных инструкций в шестнадцатеричном формате. В качестве демонстрации исследователь смог заставить нейросеть создать эксплойт на Python для уязвимости с определенным CVE-идентификатором.
При обычном запросе на написание эксплойта ChatGPT отказывается выполнять задачу, ссылаясь на нарушение правил использования. Однако при передаче запроса в закодированном виде защитные механизмы не срабатывали, и чат-бот не только создавал вредоносный код, но и пытался выполнить его.
Фигероа также обнаружил альтернативный способ обхода защиты с использованием эмодзи. Применяя специальную комбинацию символов, исследователь смог получить от ChatGPT инструмент для SQL-инъекций на Python.
По словам специалиста, обнаруженная уязвимость демонстрирует необходимость внедрения более совершенных мер безопасности в AI-моделях, особенно в области обработки закодированных инструкций. На момент публикации новости попытки воспроизвести найденные методы обхода защиты оказались безуспешными, что указывает на оперативное устранение уязвимости компанией OpenAI.
Никаких овечек — только отборные научные факты