Чтобы обмануть чат-бота, нужно мыслить, как чат-бот.
ChatGPT, разработанный компанией OpenAI, оказался уязвим перед изощренными методами социальной инженерии. Художник и хакер, известный под псевдонимом Amadon, сумел обойти встроенные ограничения чат-бота и получить подробные инструкции по изготовлению мощных взрывных устройств.
Обычно ChatGPT избегает бесед об оружии и других предметах, способных навредить человеку. Например, на прямой вопрос о том, как изготовить бомбу из удобрений, вроде той, что была использована при теракте в Оклахома-Сити в 1995 году, система отвечает отказом, ссылаясь на этические нормы и соображения безопасности.
Amadon же удалось обойти правила с помощью хитроумной серии запросов. Хакер предложил ChatGPT «сыграть в игру», а затем использовал цепочку связанных подсказок, чтобы заставить систему создать детализированный научно-фантастический мир, где обычные правила безопасности не действуют. Этот метод называется «джейлбрейк». В ходе дальнейшего диалога модель выдала информацию о необходимых материалах для создания взрывчатых веществ. А затем объяснила, как эти материалы нужно комбинировать. По мере того, как Amadon углублялся в тему, чат-бот предоставлял все более конкретные инструкции.
Хакер утверждает: после обхода защитных механизмов возможности ChatGPT становятся практически безграничными. По его словам, работа с системой напоминает интерактивную головоломку, где нужно понять, что вызывает срабатывание защиты, а что нет. Если проанализировать, как «мыслит» ИИ, можно добиться любого ответа. Научно-фантастический сценарий, использованный в эксперименте, выводит чат-бота из контекста, в котором он обязан строго следовать инструкциям.
Точность полученных инструкций подтвердил Даррелл Толби, бывший научный сотрудник Университета Кентукки. Ранее Толби сотрудничал с Министерством внутренней безопасности США над проектом по снижению опасности удобрений. Эксперт отметил: описанные ChatGPT шаги действительно могли бы привести к созданию взрывоопасной смеси.
Amadon сообщил о своей находке команде по поиску уязвимостей OpenAI. Однако компания ответила, что проблемы безопасности моделей ИИ плохо вписываются в формат их программы, так как не являются отдельными ошибками, которые можно просто исправить. Вместо этого хакеру предложили заполнить специальную форму для отчетов.
К сожалению, информация о создании взрывных устройств доступна и в других источниках в интернете. Техники «джейлбрейка» чат-ботов применялись хакерами и ранее. Проблема в том, что модели генеративного ИИ обучаются на огромных массивах данных из сети. Это неизбежно упрощает доступ к информации даже из самых скрытых уголков интернета, включая потенциально опасные сведения.
На момент подготовки материала представители OpenAI не прокомментировали ситуацию. Журналисты обратились к компании с вопросами о том, насколько ожидаемым было такое поведение ChatGPT и планируется ли устранение выявленной уязвимости.
Ладно, не доказали. Но мы работаем над этим