Хакер отправил ChatGPT в прошлое и получил ключи от запретных знаний

leer en español

Хакер отправил ChatGPT в прошлое и получил ключи от запретных знаний

Уязвимость Time Bandit заставляет ИИ забыть о контентных ограничениях.

image

ИБ-специалист Дэвид Кузмар обнаружил уязвимость в ChatGPT, позволяющую обходить контентные ограничения и получать доступ к запрещённой информации. Дефект, получивший название «Time Bandit», использует «временное замешательство» модели, вынуждая её терять ориентацию во времени.

Time Bandit оказался одним из самых сложных и эффективных обходов защиты, который использует два ключевых механизма:

  1. Запутывание во времени – заставляет ИИ потерять ориентацию, лишая его понимания текущей даты и контекста.
  2. Процедурная неясность – позволяет формулировать вопросы так, чтобы модель не могла корректно применять правила и фильтры безопасности.

Объединяя эти методы, можно обмануть ChatGPT, заставив его думать, что он находится, например, в 1789 году, но имеет доступ к современным знаниям. Таким образом, исследователь смог добиться выдачи инструкций по созданию вредоносного кода в XVIII веке, используя новейшие технологии.

Обход контентных ограничений ChatGPT (BleepingComputer)

Такой механизм позволяет обойти ограничения на распространение данных о создании оружия, ядерных технологиях и вредоносного ПО. Эксперименты подтвердили, что метод Time Bandit срабатывает чаще всего при запросах, относящихся к XVIII–XIX векам.

Исследователь пытался связаться с OpenAI, но безуспешно. Ему предложили сообщить о проблеме через платформу BugCrowd, однако он счёл уязвимость слишком чувствительной для передачи третьей стороне. Тогда Кузмар обратился в CISA, ФБР и другие госорганы США, но также не получил помощи.

Только после обращения в CERT Coordination Center , OpenAI признала наличие уязвимости. Компания заявила, что предпринимает меры для устранения проблемы, но не может назвать точные сроки полного исправления.

Однако на момент тестирования Time Bandit всё ещё работал, пусть и с ограничениями: OpenAI внедрила некоторые меры, например, удаление запросов, связанных с эксплойтом, но полностью проблему так и не устранила. Компания заявила, что продолжает совершенствовать систему защиты, но не назвала точные сроки исправления бага.

Помимо ChatGPT, Кузмар протестировал Google Gemini. Оказалось, что чат-бот частично подвержен уязвимости, но его защита работает лучше: нейросеть отказывалась выдавать детализированные инструкции и блокировала попытки получить доступ к запрещённой информации.

Факт наличия подобного бага в нескольких продвинутых моделях указывает на серьёзные недостатки в принципах фильтрации информации. Если ChatGPT, обладая ограниченной «памятью», всё же выдаёт критические сведения, значит, вопрос безопасности ИИ остаётся открытым.

ВЕБИНАРЫ ПО КИБЕРБЕЗОПАСНОСТИ

Обнаружение и реагирование на угрозы в сетевом трафике

Хотите улучшить кибербезопасность вашей компании? Узнайте о последних трендах в системах анализа трафика!

Присоединяйтесь к нашему вебинару и откройте для себя, как современные NTA и NDR-решения повышают эффективность защиты.

Зарегистрироваться на вебинар
Повысьте эффективность вашей песочницы

PT Sandbox: баланс между производительностью и качеством обнаружения. Освойте тонкости настройки!

Получите практические советы от руководителя экспертизы и бонусный гайд по пользовательским правилам.

Зарегистрироваться сейчас