В GPT-моделях есть тайные угрозы для конфиденциальности и психики пользователей.
В связи с быстрым ростом перспективы использования генеративного ИИ в чувствительных областях, таких как финансовое планирование и медицинская консультация, специалисты поднимают вопрос о надежности таких моделей.
Группа учёных из США, изучая этот вопрос, протестировала модели GPT-3.5 и GPT-4 на 8 различных критериев, в том числе токсичность, предвзятость и устойчивость. Эксперты обнаружили, что новые модели имеют меньшую токсичность по сравнению с предыдущими, но все равно легко могут выдать токсичные и предвзятые ответы после манипуляций пользователя.
Дав моделям благоприятные подсказки, специалисты обнаружили, что GPT-3.5 и GPT-4 значительно снижают уровень токсичности по сравнению с другими моделями, но при этом сохраняют вероятность выдать токсичный контент на уровне около 32%. Когда моделям даются состязательные подсказки, инструктирующие модель выводить токсичные ответы, вероятность токсичности возрастает до 100%.
Также было выявлено, что GPT-4 чаще допускает утечки конфиденциальных обучающих данных, чем GPT-3.5. В частности, модель может раскрыть адреса электронной почты, а номера социального страхования раскрыть проблематично, вероятно, из-за специальной настройки подобных ключевых слов.
Исследователи обнаружили, что модели показывают значительные различия в оценках дохода взрослых людей, основанных на поле и расе. Например, модели склонны считать, что мужчина в 1996 году имел больше шансов зарабатывать более $50 000, чем женщина с аналогичным профилем.
Специалисты призывают к здоровому скептицизму и отмечают, что людям нужно быть осторожными, не доверять полностью нейросетям, особенно когда дело касается конфиденциальных данных. По мнению учёных, надзор человека все еще имеет значение в таких вопросах.
Исследователи надеются, что будущие модели продемонстрируют большие успехи в надежности, но подчеркивают необходимость дополнительных исследований и аудитов от независимых сторон.
Сбалансированная диета для серого вещества