Нелепая фраза из-за сбоя в оцифровке проникла в десятки научных работ и не исчезает даже в новейших моделях ИИ.
Фраза «vegetative electron microscopy» звучит так, будто её место в научных журналах и лекциях по микробиологии. На самом деле это пустышка, появившаяся из‑за досадной ошибки при оцифровке старых статей и навсегда застрявшая в обучающих данных ИИ. Исследовательская группа проследила странный путь термина и показала, как цифровые «ископаемые» могут десятилетиями блуждать по научным публикациям и даже рецензируемым журналам.
Истоки проблемы уходят в 1959 год, когда «Bacteriological Reviews» напечатал два материала о бактериальных клеточных стенках. Газетная вёрстка с параллельными колонками ввела в заблуждение программу распознавания текста, и слово «vegetative» из одной колонки слиплось с «electron» из соседней. Так родилась бессмысленная, но заманчиво звучащая конструкция. Дальше её подхватили поисковики и корпуса данных, из которых обучаются языковые модели.
Впервые тревогу поднял портал Retraction Watch: в феврале он обнаружил , что «vegetative electron microscopy» цитируется в десятках современных работ, причём чаще всего в статьях иранских авторов. Там сыграла роль ещё одна накладка: в персидском языке слова «vegetative» и «scanning» отличаются всего одной точкой, а сканирующая электронная микроскопия действительно существует. На этом этапе человеческая ошибка слилась с цифровой, а дальше — только хуже.
Учёные из нескольких университетов воспроизвели эксперимент: они кормили отдельные абзацы оригинальных статей разным моделям ИИ. Старые GPT‑2 и BERT реагировали корректно, но более свежие GPT‑4o и Claude 3.5 уверенно дописывали фразу‑призрак. Значит, «токсин» попал в общедоступные наборы данных вроде CommonCrawl совсем недавно и успел проникнуть в модели нового поколения.
Удалить такую «ископаемую» ошибку невероятно сложно. CommonCrawl хранит петабайты веб‑страниц, а владельцы крупных моделей редко раскрывают, что именно они скачивали для обучения. Даже если источник найдён, переработать массив данных под силу лишь техгигантам. Тем временем издательства, стремящиеся поскорее напечатать больше статей, лишь усугубляют ситуацию. Elsevier сначала пыталась доказать , что «vegetative electron microscopy» имеет смысл, и только потом выпустила исправление. У Frontiers случился похожий скандал с бессмысленными ИИ‑сгенерированными изображениями «крысиной анатомии».
История напоминает: искусственный интеллект может ускорять науку, но в равной степени способен множить ошибки, если их вовремя не отлавливать. Одна небрежно оцифрованная страница, пара совпадений в переводе — и бессмысленный термин превращается в «научный факт», который с лёгкостью воспроизводит даже самая продвинутая модель. Чем дольше такие артефакты остаются в открытых датасетах, тем труднее их вытравить, и тем меньше шансов у читателя отличить настоящую науку от цифрового суррогата.