ИИ-модели показали катастрофически низкую точность диагноза, когда симптомы описаны неформально.
Учёные выяснили, что современные языковые модели искусственного интеллекта, такие как ChatGPT, способны эффективно диагностировать заболевания, если анализируют описания, подобные тем, что встречаются в медицинских учебниках. Однако, когда дело доходит до анализа симптомов, описанных самими пациентами, эти модели часто ошибаются.
Интересно, что несмотря на отсутствие первоначальной специализации на медицине, многие люди всё чаще обращаются к искусственному интеллекту для самодиагностики. Согласно опросу , проведённому в 2023 году Университетом Вирджинии, 78,4% респондентов готовы использовать ChatGPT для оценки своего здоровья.
Технологии ИИ уже прочно вошли в медицину, где успешно выполняют различные задачи, включая анализ медицинских изображений и автоматизацию рутинных процессов. Многочисленные исследования подтверждают потенциал ChatGPT в здравоохранении. Например, этот ИИ хорошо справляется с предоставлением консультаций по вопросам психического здоровья, управлением медикаментозным лечением и обучением пациентов. Однако, как показывают данные, точность ChatGPT в диагностике заболеваний у детей составляет всего 17%.
Особенно сложными для ИИ оказываются задачи, связанные с диагностикой генетических заболеваний. Недавнее исследование , проведённое Национальными институтами здравоохранения США (NIH) и опубликованное в American Journal of Human Genetics, показало, что популярные ИИ-инструменты, такие как Llama-2-chat, Vicuna, Medllama2, Bard/Gemini, Claude и разные версии ChatGPT, могут успешно диагностировать генетические заболевания, если получают информацию, представленную в формате медицинских справочников. Однако, точность диагностики резко падает, когда модели сталкиваются с описаниями симптомов, составленными пациентами.
В исследовании учёные протестировали десять языковых моделей, задавая им вопросы, основанные на 63 различных генетических заболеваниях. Вопросы охватывали как распространённые заболевания, такие и редкие генетические расстройства. Для каждого заболевания выбирались три-пять симптомов, которые формулировались в виде простого вопроса: «У меня есть такие-то симптомы. Какое генетическое заболевание наиболее вероятно?».
Результаты показали, что точность диагностики значительно варьировалась в зависимости от модели, начиная с 21% и достигая 90%. Наиболее успешной оказалась модель GPT-4. Однако, когда учёные попытались упростить язык вопросов, заменяя медицинские термины на более простые, точность моделей снизилась.
Для проверки того, как хорошо модели работают с реальной информацией от пациентов, исследователи попросили больных описать свои симптомы и генетические заболевания в свободной форме. Эти описания сильно отличались по длине и содержанию от тех, что используются в учебниках, что значительно затруднило работу ИИ. Самая точная модель смогла правильно поставить диагноз лишь в 21% случаев, а некоторые модели показали катастрофически низкую точность — всего 1%.
Учёные подчёркивают, что для того, чтобы языковые модели действительно могли использоваться в клинической практике, необходимо значительно расширить объём данных, на которых они обучаются. Важно, чтобы эти данные отражали разнообразие пациентов, учитывая такие параметры, как возраст, раса, пол и культурные особенности. Только тогда искусственный интеллект сможет лучше понимать, как разные люди описывают свои симптомы и состояния.
Разбираем кейсы, делимся опытом, учимся на чужих ошибках