Нейросети в белых халатах: почему врачи всё еще доверяют горе-помощникам

Нейросети в белых халатах: почему врачи всё еще доверяют горе-помощникам

Кто в ответе за неверные диагнозы, поставленные ИИ и насколько всё серьезно?

image

Крупное международное научное исследование показало: искусственный интеллект регулярно допускает сбои при решении медицинских задач, но полностью отказываться от его применения в здравоохранении не стоит. К такому выводу пришла группа из 25 экспертов ведущих научных центров – специалисты из Гарварда, MIT, Университета Вашингтона, больницы Сеульского национального университета и других организаций проанализировали работу алгоритмов в медицинской сфере.

Авторы статьи подчеркивают: современные языковые модели от Anthropic, Google, Meta и OpenAI открывают широкие возможности для поддержки клинических решений, развития научных изысканий и повышения качества лечения. Однако прежде необходимо разработать эффективные способы минимизации рисков от их применения.

Специфика сбоев искусственного интеллекта в медицине заключается в двух ключевых аспектах. Во-первых, они возникают при выполнении специализированных задач – постановке диагноза, планировании терапии или интерпретации лабораторных данных. В этих случаях любая неточность напрямую влияет на здоровье пациента. Во-вторых, системы часто используют профессиональную терминологию и выстраивают внешне логичные, но некорректные рассуждения, которые сложно распознать без экспертной проверки.

Команда даже создала классификацию отклонений. В нее вошли фактические неточности, использование устаревших источников, ложные взаимосвязи между симптомами, выдуманные медицинские рекомендации и нарушения в цепочках логических рассуждений.

В ходе работы специалисты оценили точность пяти популярных языковых моделей – o1, gemini-2.0-flash-exp, gpt-4o, gemini-1.5-flash и claude-3.5 sonnet. Проверка включала три типа задач: выстраивание хронологии событий, анализ лабораторных показателей и формирование дифференциального диагноза. Каждый сбой оценивался по шкале от 0 (отсутствие риска) до 5 (катастрофические последствия).

При определении диагноза алгоритмы допускали минимум неточностей – их доля составила от 0 до 22 процентов. Гораздо сложнее для систем оказались задачи, требующие точного запоминания фактов и их временных связей. При выстраивании хронологии доля сбоев достигала 24,6 процента, а при интерпретации лабораторных данных – 18,7 процента.

Выходит, распространенное мнение о том, что диагностика – самая сложная задача для искусственного разума, неверно. Напротив, современные алгоритмы успешно распознают характерные симптомы в медицинских отчетах, но затрудняются с извлечением и систематизацией конкретных фактов из клинических текстов.

Самую высокую точность в ходе испытаний показали модели Claude-3.5 от Anthropic и o1 от OpenAI. Несмотря на обнадеживающие результаты, даже лучшие системы иногда совершают серьезные промахи, поэтому их применение в клинической практике и требует постоянного надзора со стороны врачей.

В рамках исследования также был проведен опрос 75 медицинских работников. Респондент должны были рассказать, как часто используют нейросети и насколько доверяют их ответам. Выяснилось, что 40 специалистов применяют такие инструменты ежедневно, 9 – несколько раз в неделю, 13 – несколько раз в месяц, остальные – редко или никогда. При этом 30 респондентов отметили высокую степень доверия к рекомендациям компьютерных помощников.

Самое тревожное, что в целом 40 процентов опрошенных полагаются на искусственный интеллект, хотя 91,8 процента медиков уже сталкивались с его галлюцинациями в клинической практике. Более того, 84,7 процента специалистов признали: замеченные ими сбои могли причинить вред здоровью пациентов.

Авторы исследования настаивают: необходимо срочно разработать правила применения искусственного интеллекта в медицине и четко определить, кто будет отвечать за его ошибки. Если алгоритм поставит неверный диагноз, важно понимать, на ком лежит ответственность: на разработчиках, которые обучили систему на некачественных данных, на враче, который слепо доверился компьютеру, или на руководстве больницы, которое не обеспечило должный контроль за использованием технологии.

Бэкап знаний создан успешно!

Храним важное в надежном месте

Синхронизируйтесь — подпишитесь