Нейросети в белых халатах: почему врачи всё еще доверяют горе-помощникам

Нейросети в белых халатах: почему врачи всё еще доверяют горе-помощникам

Кто в ответе за неверные диагнозы, поставленные ИИ и насколько всё серьезно?

image

Крупное международное научное исследование показало: искусственный интеллект регулярно допускает сбои при решении медицинских задач, но полностью отказываться от его применения в здравоохранении не стоит. К такому выводу пришла группа из 25 экспертов ведущих научных центров – специалисты из Гарварда, MIT, Университета Вашингтона, больницы Сеульского национального университета и других организаций проанализировали работу алгоритмов в медицинской сфере.

Авторы статьи подчеркивают: современные языковые модели от Anthropic, Google, Meta и OpenAI открывают широкие возможности для поддержки клинических решений, развития научных изысканий и повышения качества лечения. Однако прежде необходимо разработать эффективные способы минимизации рисков от их применения.

Специфика сбоев искусственного интеллекта в медицине заключается в двух ключевых аспектах. Во-первых, они возникают при выполнении специализированных задач – постановке диагноза, планировании терапии или интерпретации лабораторных данных. В этих случаях любая неточность напрямую влияет на здоровье пациента. Во-вторых, системы часто используют профессиональную терминологию и выстраивают внешне логичные, но некорректные рассуждения, которые сложно распознать без экспертной проверки.

Команда даже создала классификацию отклонений. В нее вошли фактические неточности, использование устаревших источников, ложные взаимосвязи между симптомами, выдуманные медицинские рекомендации и нарушения в цепочках логических рассуждений.

В ходе работы специалисты оценили точность пяти популярных языковых моделей – o1, gemini-2.0-flash-exp, gpt-4o, gemini-1.5-flash и claude-3.5 sonnet. Проверка включала три типа задач: выстраивание хронологии событий, анализ лабораторных показателей и формирование дифференциального диагноза. Каждый сбой оценивался по шкале от 0 (отсутствие риска) до 5 (катастрофические последствия).

При определении диагноза алгоритмы допускали минимум неточностей – их доля составила от 0 до 22 процентов. Гораздо сложнее для систем оказались задачи, требующие точного запоминания фактов и их временных связей. При выстраивании хронологии доля сбоев достигала 24,6 процента, а при интерпретации лабораторных данных – 18,7 процента.

Выходит, распространенное мнение о том, что диагностика – самая сложная задача для искусственного разума, неверно. Напротив, современные алгоритмы успешно распознают характерные симптомы в медицинских отчетах, но затрудняются с извлечением и систематизацией конкретных фактов из клинических текстов.

Самую высокую точность в ходе испытаний показали модели Claude-3.5 от Anthropic и o1 от OpenAI. Несмотря на обнадеживающие результаты, даже лучшие системы иногда совершают серьезные промахи, поэтому их применение в клинической практике и требует постоянного надзора со стороны врачей.

В рамках исследования также был проведен опрос 75 медицинских работников. Респондент должны были рассказать, как часто используют нейросети и насколько доверяют их ответам. Выяснилось, что 40 специалистов применяют такие инструменты ежедневно, 9 – несколько раз в неделю, 13 – несколько раз в месяц, остальные – редко или никогда. При этом 30 респондентов отметили высокую степень доверия к рекомендациям компьютерных помощников.

Самое тревожное, что в целом 40 процентов опрошенных полагаются на искусственный интеллект, хотя 91,8 процента медиков уже сталкивались с его галлюцинациями в клинической практике. Более того, 84,7 процента специалистов признали: замеченные ими сбои могли причинить вред здоровью пациентов.

Авторы исследования настаивают: необходимо срочно разработать правила применения искусственного интеллекта в медицине и четко определить, кто будет отвечать за его ошибки. Если алгоритм поставит неверный диагноз, важно понимать, на ком лежит ответственность: на разработчиках, которые обучили систему на некачественных данных, на враче, который слепо доверился компьютеру, или на руководстве больницы, которое не обеспечило должный контроль за использованием технологии.

Реальные атаки. Эффективные решения. Практический опыт.

Standoff Defend* — это онлайн-полигон, где ты сможешь испытать себя. Попробуй себя в расследовании инцидентов и поборись за победу в конкурсе

*Защищать. Реклама. АО «Позитив Текнолоджиз», ИНН 7718668887