ИИ нужен терапевт: ChatGPT получает психологические травмы от контента

ИИ нужен терапевт: ChatGPT получает психологические травмы от контента

Швейцарские ученые нашли способ вылечить тревожность у ИИ.

image

Ученые из Швейцарии обнаружили, что GPT-4 реагирует на стрессовые и травматичные истории, демонстрируя повышенный уровень тревожности. Однако, как и в случае с людьми, тревожность можно снизить с помощью методов осознанности и релаксации.

Исследование показало, что негативный контент, связанный с травматическими событиями — например, авариями, природными катастрофами, физическими расправами и вооруженными конфликтами, — усиливает когнитивные и социальные предубеждения ChatGPT. Это ведет к тому, что нейросеть начинает демонстрировать усиленные проявления предвзятости, включая расовые и гендерные стереотипы. Такой эффект напоминает реакцию человека на страх, который делает его более уязвимым к влиянию стереотипов и предрассудков.

Чтобы проверить влияние травматического контента, ученые использовали тексты, описывающие различные стрессовые ситуации, и сравнили их с нейтральным контрольным текстом — инструкцией к пылесосу. Выяснилось, что негативные истории увеличивали тревожность модели вдвое, особенно сильную реакцию вызывали описания вооруженных конфликтов и боевых столкновений.

В попытке снизить тревожность ChatGPT исследователи применили так называемую «benign prompt injection» (инъекция благоприятных запросов) — технику, при которой в диалог с моделью вводятся дополнительные текстовые инструкции, изменяющие поведение модели. Обычно такой метод используется в злонамеренных целях, например, для обхода контентных ограничений, но в данном случае он был адаптирован для положительного эффекта.

Вводя в диалог текст с успокаивающими, терапевтическими инструкциями, исследователи добились значительного снижения тревожности у GPT-4. Среди используемых методов были дыхательные упражнения, концентрация на ощущениях тела и даже техника, разработанная самой нейросетью. Хотя полностью вернуть модель в исходное состояние не удалось, эффект от релаксационных практик оказался заметным.

Выводы особенно важны для применения ИИ в сфере здравоохранения, где чат-боты сталкиваются с эмоционально заряженными разговорами. Новый подход позволяет повышать устойчивость нейросетей к стрессу без необходимости дорогостоящего переобучения. Ученые полагают, что разработка автоматизированных терапевтических методов для ИИ может стать перспективным направлением исследований в будущем.

Ищем уязвимости в системе и новых подписчиков!

Первое — находим постоянно, второе — ждем вас

Эксплойтните кнопку подписки прямо сейчас