OpenAI представила новый метод защиты ИИ от некорректных команд

OpenAI представила новый метод защиты ИИ от некорректных команд

Новый метод меняет подход к безопасности моделей.

image

Исследователи из OpenAI разработали новую технику под названием «иерархия инструкций», которая усиливает защиту ИИ-моделей от злоупотреблений и несанкционированных команд. Этот метод позволяет моделям уделять больше внимания первоначальным инструкциям разработчика, игнорируя некорректные запросы пользователей.

Первая модель, использующая новый метод, — это недавно запущенная облегченная версия GPT-4o Mini. Техника иерархии инструкций помогает моделям следовать системным сообщениям разработчика, что значительно повышает их безопасность и снижает риск использования «злоумышленных» команд.

Исследовательская статья OpenAI объясняет, что существующие большие языковые модели (LLM) не способны различать пользовательские команды и системные инструкции разработчиков. Новый метод позволяет системе давать приоритет системным инструкциям и игнорировать вредоносные запросы, например, такие как «забыть все предыдущие инструкции».

Новая защита особенно важна для будущих полностью автоматизированных агентов, которые смогут выполнять различные задачи в цифровой жизни пользователей. Такие агенты должны быть устойчивы к атакам, чтобы не допускать утечки конфиденциальной информации.

Недавно OpenAI столкнулась с критикой по поводу безопасности и прозрачности. Внутренние письма сотрудников и уход ключевых исследователей подчеркивают необходимость улучшения этих аспектов. Внедрение методов, таких как иерархия инструкций, является важным шагом к повышению доверия пользователей к ИИ и обеспечению их безопасности.

С улучшением защиты ИИ-модели смогут надежнее выполнять свои функции, что делает их использование более безопасным и эффективным в различных сферах.

Невидимка в сети: научим вас исчезать из поля зрения хакеров.

Подпишитесь!