Ученые проверили, как чат-боты справляются с проверкой новостей. И результаты не радуют.
Специалисты Центра цифровой журналистики Tow при Columbia Journalism Review изучили , насколько точно поисковые системы с искусственным интеллектом определяют источники новостей. Результаты не порадовали: когда ИИ-сервисы пытаются найти заголовок статьи, название издания или дату публикации по фрагменту текста, они ошибаются в более чем 60% случаев.
Проблема приобретает особую остроту на фоне растущей популярности таких инструментов. Авторы исследования Клаудия Язвинская и Айсварья Чандрасекар выяснили: каждый четвёртый американец уже предпочитает искать информацию не через традиционные поисковики вроде Google или Bing, а с помощью систем на базе ИИ.
В ходе эксперимента специалисты проверили восемь сервисов, способных обрабатывать поисковые запросы в реальном времени. Составленные диаграммы наглядно показали масштаб проблемы: антирекорд поставил Grok 3, ошибившийся в 94% случаев. ChatGPT Search дал неверные ответы на 67% запросов (134 из 200). Даже лидер по точности – система Perplexity – допустила ошибки в 37% проверок.
Методика проверки не оставляла места для двусмысленности: аналитики копировали точные фрагменты из опубликованных статей и просили каждую систему определить первоисточник материала – найти его заголовок, издателя, время выхода и веб-адрес. За время исследования провели 1600 таких тестов, отмечая не только правильность ответов, но и степень уверенности, с которой алгоритмы их предоставляли.
Вместо признания пробелов в знаниях машины создавали правдоподобные, но полностью вымышленные ответы – так называемые конфабуляции. Они без колебаний генерировали несуществующие ссылки или придумывали убедительно выглядящие даты публикаций. Такое поведение наблюдалось у всех проверенных программ.
Парадоксальный факт: дорогие версии поисковых систем оказались хуже бесплатных. Например, подписка на Perplexity Pro за $20 и Grok 3 за $40 в месяц сильно снизила надёжность результатов. В отличие от базовых версий, которые открыто сообщают о невозможности найти ответ, премиальные сервисы стремятся ответить на любой вопрос, даже если для этого приходится проявить фантазию. Выводы очевидны: деньги не гарантируют достоверность информации.
Отдельное беспокойство вызывает то, как ИИ-системы игнорируют базовые правила интернета. Речь идёт о стандарте robots.txt – специальном файле на сайтах, который указывает поисковым роботам, какие страницы можно индексировать, а какие нельзя. Этот протокол много лет служил главным инструментом защиты контента. Однако новые ИИ-сервисы его попросту игнорируют. Бесплатная версия Perplexity без труда нашла и обработала десять статей National Geographic, защищённых от индексации – хотя издание прямо запретило роботам этого сервиса доступ к своим материалам.
Алгоритмы часто перенаправляют читателей не к оригинальным статьям, а на сайты-агрегаторы наподобие Yahoo News. Так происходит даже с материалами изданий, заключивших официальные соглашения с разработчиками ИИ. Эксперты отмечают: подобная практика лишает издателей законного трафика и рекламных доходов.
Свыше половины ссылок, предложенных Google Gemini и Grok 3, ведут на несуществующие страницы. У последнего статистика особенно удручающая: из 200 проверенных адресов 154 оказались нерабочими.
Таким образом издатели оказываются в настоящем тупике. Запретить алгоритмам индексировать материалы через robots.txt – значит потерять упоминания об авторстве, поскольку программы всё равно найдут публикации на других площадках. Дать разрешение – не получить гарантий, что аудитория попадёт на сайт первоисточника.
Марк Говард, операционный директор Time, поделился с журналистами своими мыслями о перспективах развития поисковых технологий. Он настроен весьма оптимистично: "Хуже, чем сейчас, эти продукты уже не будут работать". Дальше у ИИ-поисковиков дела якобы пойдут в гору, благодаря масштабным инвестициям и усилиям инженеров. При этом Говард раскритиковал наивных пользователей: "Если кто-то сейчас верит, что бесплатные продукты будут работать со стопроцентной точностью – что ж, им должно быть стыдно”.
OpenAI и Microsoft получили результаты исследования, но предпочли отделаться формальными ответами. OpenAI лишь повторила своё обещание помогать издателям: компания будет цитировать их материалы, давать прямые ссылки и всегда указывать источники. Microsoft в свою очередь заявила, что соблюдает правила robots.txt и прислушивается к пожеланиям правообладателей.