Модели Gemini Robotics помогут роботам тонко чувствовать мир… и освоить оригами.
Google DeepMind разработала две новые модели искусственного интеллекта: Gemini Robotics и Gemini Robotics-ER , которые позволят роботам любых конфигураций лучше ориентироваться в физическом пространстве и выполнять различные действия точнее, чем прежде. В перспективе технология может стать основой для создания человекоподобных андроидов-помощников.
Современные роботы отлично справляются с повторяющимися задачами в стабильных условиях, например, на конвейере. Но главная сложность в том, чтобы научить их действовать в реальном мире так же естественно, как это делают живые существа. Машина должна постоянно оценивать ситуацию вокруг, понимать свойства незнакомых предметов, учитывать законы физики и мгновенно корректировать свои движения. В домашних условиях робот столкнется с самыми разными вещами: хрупкими чашками, мягкими игрушками, скользкими упаковками. К каждому предмету нужен особый подход, и заранее запрограммировать все варианты невозможно.
Именно такую задачу решает "воплощенный ИИ" (embodied AI) — технология, которая позволяет искусственному разуму взаимодействовать с физическим миром подобно человеку. Наравне с проектами Nvidia это одно из самых амбициозных направлений в современной робототехнике. Если инженерам удастся создать по-настоящему адаптивных роботов, они смогут работать где угодно: в больницах и домах престарелых, в магазинах и ресторанах, на складах и стройках — везде, где нужны ловкие и понимающие ассистенты.
Новые разработки Google построены на базе языковой модели Gemini 2.0, но дополнены специальными опциями. Gemini Robotics использует технологию "зрение-язык-действие" (vision-language-action, VLA). Она анализирует данные с камер, обрабатывает голосовые команды на обычном языке и преобразует их в последовательность движений. При этом происходит постоянный контроль результатов и их своевременная корректировка.
Вторая модель, Gemini Robotics-ER, умеет мыслить как физический объект в пространстве. Она анализирует свойства предметов, просчитывает, как лучше к ним подступиться, и учитывает все законы физики при работе. Благодаря особой архитектуре модель легко встраивается в уже существующих роботов — это серьезно упрощает её практическое применение.
Когда андроиду говорят "возьми банан и положи в корзину", он не просто идентифицирует цель на изображении с камеры, а понимает, что банан мягкий и его легко повредить, поэтому подбирает оптимальную силу захвата. При работе с бумагой робот действует как опытный мастер оригами: аккуратно сгибает листы, следит за точностью линий сгиба и не допускает заломов.
Многие помнят, как в прошлом году Google представила модель RT-2, которая черпала знания из интернета, училась понимать человеческие команды и пыталась применять увиденное к новым ситуациям. В тестах RT-2 работала вдвое эффективнее предшественников, но могла лишь копировать заранее отработанные движения. Gemini Robotics пошла дальше — она умеет самостоятельно продумывать стратегию и выполнять сложные задачи, даже если никогда раньше с ними не сталкивалась (этот процесс в сфере ИИ называется “обобщением”).
Главная цель корпорации - спроектировать действительно автономную систему, то есть универсальный интеллект для механизмов разных типов. Чтобы реализовать амбиции, Google объединилась с техасской Apptronik. Сотрудничество направлено на создание нового поколения человекоподобных роботов с Gemini 2.0. Хотя основное обучение проводилось на двуруком роботе ALOHA 2, программа уже успешно управляет разными устройствами: от простых манипуляторов Franka до сложных андроидов вроде Apollo от Apptronik.
Рынок человекоподобных машин в целом расширяется с бешеными темпами. Взять хотя бы Figure AI: недавно она получила крупное финансирование для своих проектов. Независимая теперь от Alphabet компания Boston Dynamics недавно показала новую версию своего знаменитого робота Atlas, сделав его еще более гибким и подвижным. Но даже лучшим производителям не хватает главного — достаточно умного ИИ для управления такими сложными машинами. Google же решила помочь индустрии и открыла доступ к Gemini Robotics-ER для избранных партнеров: Boston Dynamics, Agility Robotics и Enchanted Tools первыми получили возможность протестировать новую систему.
Безопасность в разработке стоит на первом месте. DeepMind, по словам представителей, применяет целый комплекс защитных мер: от базовых механизмов, которые не дают андроиду столкнуться с препятствием или применить слишком большую силу, до сложных алгоритмов принятия решений. Инженеры даже создали особый свод правил — "Конституцию робота", вдохновленную знаменитыми законами робототехники Азимова.
Чтобы проверить, насколько хорошо роботы следуют этим правилам, разработчики составили специальный тестовый набор ASIMOV. Он содержит тысячи различных сценариев, которые помогают понять, правильно ли ИИ оценивает последствия своих действий. Робот должен не только избегать прямых столкновений с людьми, но и предугадывать, как его выборы повлияют на окружающих: не оставить скользкий предмет на полу, не уронить тяжелую мебель, чтобы паркет остался целым.
Сроки коммерческого внедрения новых моделей пока не разглашаются. И несмотря на впечатляющие результаты в лабораторных условиях, главный вопрос остается открытым: как разработка проявит себя в непредсказуемой реальности, где каждая ситуация уникальна и требует мгновенных решений.
Разбираем кейсы, делимся опытом, учимся на чужих ошибках