Интуиция для роботов: как модели мира учат ИИ понимать физику

leer en español

Интуиция для роботов: как модели мира учат ИИ понимать физику

Еще один способ приблизить машинный интеллект к человеческому.

image

В сфере искусственного интеллекта зарождается новое перспективное направление - модели мира, способные имитировать реальность во всей её сложности. Компания World Labs недавно получила инвестиции в размере 230 миллионов долларов на создание таких систем. К гонке присоединилась и лаборатория DeepMind, пригласив в свою команду одного из разработчиков нашумевшего видеогенератора Sora от OpenAI .

В основе моделей мира лежит принцип работы человеческого мозга. Наше сознание непрерывно создает внутреннюю картину окружающей действительности, превращая разрозненные сигналы органов чувств в целостное восприятие. Исследователи Дэвид Ха и Юрген Шмидхубер в своей статье иллюстрируют этот процесс на примере бейсбола: игроки успешно отбивают мячи на скорости 160 километров в час, хотя зрительный сигнал физически не успевает обработаться мозгом.

У профессиональных спортсменов этот навык доведен до автоматизма - их мышцы мгновенно реагируют, опираясь на подсознательные прогнозы траектории мяча. Многие специалисты считают, что именно такой механизм интуитивного мышления необходим для создания искусственного интеллекта, сопоставимого с человеческим.

Модели мира привлекли особое внимание благодаря перспективам в области генерации видео. Существующие ИИ-системы часто создают визуально нереалистичные ролики, где, например, конечности персонажей могут противоестественно деформироваться или сливаться. Образно говоря, современные алгоритмы научились показывать отскок баскетбольного мяча, но не понимают физических законов, стоящих за этим явлением.

Для формирования целостного понимания реальности модели мира обучаются на комплексных данных - изображениях, аудиозаписях, видеоматериалах и текстах. Алекс Машрабов, ранее возглавлявший направление ИИ в Snap, а теперь руководящий компанией Higgsfield , отмечает: зритель ожидает, что виртуальный мир будет следовать привычным законам физики, где перышко не падает с тяжестью наковальни, а шар для боулинга не взлетает на немыслимую высоту.

Руководитель исследовательского подразделения Meta*, Янн ЛеКун , видит в моделях мира инструмент для сложного прогнозирования и планирования. По его мнению, такая система сможет самостоятельно определить последовательность действий для достижения цели - например, увидев грязную комнату, составит план уборки: запустить пылесос, вымыть посуду, убрать мусор. Причем не потому, что встречала похожий сценарий в обучающих данных, а благодаря пониманию самой сути процесса уборки.

OpenAI уже делает первые шаги в этом направлении. Их система Sora умеет достоверно воспроизводить процесс рисования кистью на холсте. Более того, она способна создавать правдоподобные игровые миры. Правда, качество пока оставляет желать лучшего… Но все впереди.

Сооснователь World Labs, Джастин Джонсон , предвещает существенные изменения в игровой индустрии. Сейчас разработка виртуальных миров требует многомесячной работы команд и сотен миллионов долларов вложений. Модели мира могут автоматизировать этот процесс, создавая полноценные интерактивные трехмерные пространства по запросу.

На пути к воплощению этих замыслов стоят серьезные технические сложности. Обучение и функционирование моделей мира требует огромных вычислительных ресурсов. Если современные языковые модели уже работают на обычных смартфонах, то для системы уровня Sora нужны тысячи мощных графических процессоров.

Модели мира, как и другие системы ИИ, склонны к ошибкам восприятия и могут наследовать предвзятости из обучающих данных. Система, обученная преимущественно на видеозаписях солнечной погоды в европейских городах, рискует неверно интерпретировать зимние пейзажи азиатских мегаполисов.

Машрабов подчеркивает проблему дефицита качественных обучающих материалов. Существующие модели часто не очень хорошо понимают разнообразие человеческой внешности и расовых особенностей. Чтобы полноценно обучить систему, ей нужно показать множество разных ситуаций, но при этом научить глубоко разбираться в каждой из них.

Глава ИИ-стартапа Runway Кристобаль Валенсуэла признает: пока моделям сложно точно имитировать поведение живых существ. По его словам, модели должны научиться создавать точные карты окружения и органично взаимодействовать с виртуальной средой.

Если удастся решить эти задачи, модели мира смогут соединить искусственный интеллект с физической реальностью. Машрабов уверен: прогресс затронет не только то, как создаются виртуальные пространства - изменятся и роботы, и то, как системы ИИ принимают решения.

Современные роботы ограничены в действиях, потому что не осознают, что происходит вокруг и где находятся они сами. Модели мира помогут им всё осознать и переосмыслить.

* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.

Ваша цифровая безопасность — это пазл, и у нас есть недостающие детали

Подпишитесь, чтобы собрать полную картину