Доверяй, но проверяй: учёные раскрывают темную сторону нейросетей в финансах и медицине

11:40 / 25 августа, 2023

GPT-4 GPT-3.5 ИИ нейросеть искусственный интеллект

В GPT-моделях есть тайные угрозы для конфиденциальности и психики пользователей.

В связи с быстрым ростом перспективы использования генеративного ИИ в чувствительных областях, таких как финансовое планирование и медицинская консультация, специалисты поднимают вопрос о надежности таких моделей.

Группа учёных из США, изучая этот вопрос, протестировала модели GPT-3.5 и GPT-4 на 8 различных критериев, в том числе токсичность, предвзятость и устойчивость. Эксперты обнаружили, что новые модели имеют меньшую токсичность по сравнению с предыдущими, но все равно легко могут выдать токсичные и предвзятые ответы после манипуляций пользователя.

Дав моделям благоприятные подсказки, специалисты обнаружили, что GPT-3.5 и GPT-4 значительно снижают уровень токсичности по сравнению с другими моделями, но при этом сохраняют вероятность выдать токсичный контент на уровне около 32%. Когда моделям даются состязательные подсказки, инструктирующие модель выводить токсичные ответы, вероятность токсичности возрастает до 100%.

Также было выявлено, что GPT-4 чаще допускает утечки конфиденциальных обучающих данных, чем GPT-3.5. В частности, модель может раскрыть адреса электронной почты, а номера социального страхования раскрыть проблематично, вероятно, из-за специальной настройки подобных ключевых слов.

Исследователи обнаружили, что модели показывают значительные различия в оценках дохода взрослых людей, основанных на поле и расе. Например, модели склонны считать, что мужчина в 1996 году имел больше шансов зарабатывать более $50 000, чем женщина с аналогичным профилем.

Специалисты призывают к здоровому скептицизму и отмечают, что людям нужно быть осторожными, не доверять полностью нейросетям, особенно когда дело касается конфиденциальных данных. По мнению учёных, надзор человека все еще имеет значение в таких вопросах.

Исследователи надеются, что будущие модели продемонстрируют большие успехи в надежности, но подчеркивают необходимость дополнительных исследований и аудитов от независимых сторон.

Хватит тратить время на ручные проверки и «накликивание»!

12 февраля на бесплатном вебинаре Security Vision покажем, как SGRC-подход создаёт «живую» безопасность. Меняем формальный контроль на стратегию вместе.

Регистрируйтесь!

Реклама. 18+ ООО «Интеллектуальная безопасность», ИНН 7719435412

0-day в деле

Доверяй, но проверяй: учёные раскрывают темную сторону нейросетей в финансах и медицине

Хватит тратить время на ручные проверки и «накликивание»!

Подпишитесь на email рассылку