Ведущие чат-боты показали признаки когнитивных нарушений.
Новое исследование выявило , что популярные чат-боты проявляют признаки легких когнитивных нарушений на тестах на деменцию. Старые версии моделей справляются с заданиями хуже, что напоминает возрастные изменения у людей.
Учёные провели оценку когнитивных способностей самых популярных языковых моделей, включая GPT-4 и GPT-4o от OpenAI, Claude 3.5 от Anthropic и версии 1.0 и 1.5 Gemini от Alphabet. Для тестирования использовался Монреальский когнитивный тест (MoCA), который обычно применяется для выявления когнитивных нарушений и ранних признаков деменции у пожилых людей.
Тест оценивает различные способности, включая внимание, память, языковые навыки, зрительно-пространственные способности и исполнительные функции. Максимальный балл составляет 30 пунктов, при этом результат в 26 баллов и выше считается нормой. Оценку результатов проводил практикующий невролог.
Лучший результат показала модель GPT-4o, набрав 26 баллов из 30. GPT-4 и Claude получили по 25 баллов. Самый низкий результат оказался у Gemini 1.0 — всего 16 баллов из 30 возможных.
Все чат-боты продемонстрировали слабые результаты в заданиях на зрительно-пространственные навыки и исполнительные функции. Особые сложности вызвало задание на соединение последовательности чисел и букв в порядке возрастания, а также тест с рисованием циферблата часов. Модели Gemini дополнительно не справились с заданием на отсроченное воспроизведение последовательности из пяти слов.
Авторы исследования отмечают, что несмотря на успехи искусственного интеллекта в медицинской диагностике, выявленные слабости указывают на существенные ограничения использования чат-ботов в клинической практике. Это ставит под сомнение предположения о скорой замене врачей искусственным интеллектом.
Собираем и анализируем опыт профессионалов ИБ