По стопам младенца: ИИ наконец-то научится говорить по-человечески

По стопам младенца: ИИ наконец-то научится говорить по-человечески

Почему ChatGPT не может понять простых фраз и как это исправить.

image

Современные системы искусственного интеллекта не понимают смысл слов и часто выдумывают несуществующие факты. Учёные из лаборатории искусственного интеллекта Брюссельского свободного университета предложили радикальное решение : создать модель, которая будет учиться языку как ребёнок, через непосредственное взаимодействие с реальным миром.

В чём суть проблемы? В отличие от человека, особенно ребёнка, компьютер не способен интуитивно взаимодействовать с окружающей средой и корректировать свои предположения на основе реальных ощущений. Он лишь анализирует шаблоны в текстах, не вникая в суть того, о чём "говорит".

Ситуацию усугубляют "галлюцинации" и предвзятость нейросетей. Один из авторов исследования столкнулся с этим, когда попросил ИИ составить развлекательную, но точную викторину для подростков. Система решила, что "развлекательный" означает "бессмысленный", и создала тест с недостоверной информацией о турецком фольклоре. И это не просто досадная ошибка - таким образом, если не проверить информацию, можно оскорбить целые народы, ведь культурное наследие и национальная идентичность требуют уважительного отношения.

Исследователи подробно проанализировали, как учатся языку дети и компьютеры. Дети осваивают речь естественным путём: играют со словами, экспериментируют, взаимодействуют с окружающими, подражают и интерпретируют услышанное. LLM же просто обрабатывают огромные объёмы текстов и компилируют из них новый контент. Да, как отмечают учёные, они "крайне эффективны во многих видах работы с текстом" - могут обобщать информацию, переводить, отвечать на вопросы. Но настоящего понимания у них нет.

Вместо пассивного поглощения данных новой модели предстоит активно взаимодействовать с окружающей средой. По мнению исследователей, это поможет решить главную проблему современных систем вроде ChatGPT и Gemini - они не понимают смысла того, о чём говорят, а просто комбинируют фрагменты изученных текстов. Новые же модели будут 'глубже укоренены в смысле и намерении' - то есть научатся действительно понимать контекст и значение слов.

Новый подход поможет решить и множество практических проблем. Например, Gemini плохо справляется с голосовыми командами - путает разные уровни контекста и может внезапно ответить на вопрос, который пользователь задавал неделю назад. Модель, построенная на понимании намерений, а не на шаблонах, будет работать гораздо точнее. К тому же такой подход окажется более экологичным. Сейчас для обучения ИИ требуются огромные вычислительные мощности, что приводит к значительным энергозатратам и, как следствие, к увеличению углеродного следа.

Однако здесь возникает важный вопрос: как организовать такое обучение на практике? Современные языковые модели работают с миллиардами слов, они уже "знают" практически всё. А в новом подходе придётся начинать почти с нуля - как ребёнок, который постепенно познаёт мир. С какого словарного запаса начинать? Достаточно ли будет нескольких сотен базовых слов? И главное - смогут ли компании масштабировать такой подход, ведь он требует гораздо более сложной инфраструктуры для обучения ИИ?

Отдельная проблема - культурные и эмоциональные нюансы языка. Возьмём фразу "я люблю тебя": на западе её могут бросить походя, а в Японии или Корее произносят очень осторожно и только с глубоким чувством. Или слово "извините": в азиатских культурах это способ избежать конфликта, а на Западе - признание вины. Когда ChatGPT извиняется, он не испытывает настоящего сожаления. Но может ли искусственный интеллект научиться понимать такие тонкости?

Для полноценного освоения языка модели потребуется физическое взаимодействие с миром. Чтобы понять значение слов "вверх", "вниз" или "рядом", нужно уметь перемещаться в пространстве. А чтобы правильно интерпретировать фразу "я в порядке", необходимо разбираться в сложной эмоциональной динамике: это может быть проявлением безразличия, вежливости, сарказма, фрустрации, просьбой о поддержке или действительно искренним ответом.

Язык - это не только слова, но и культурные ритуалы, вроде поклона в Японии. Новая модель должна будет осваивать все эти тонкости постепенно, через непосредственный опыт, а не просто генерировать тексты с непредсказуемым результатом. Только так, считают учёные, искусственный интеллект сможет по-настоящему овладеть человеческой речью. Что уж говорить об AGI, которого мы ждем с таким нетерпением…

Инновации PT Application Inspector для безопасной разработки в IDE

6 февраля в 14:00 — не пропустите!

Регистрация открыта

Реклама. Рекламодатель АО «Позитив Текнолоджиз», ИНН 7718668887, 18+