Обновленная модель от Google выйдет за рамки текста и картинок. Только бы это оказалось правдой…
Ровно за день до своей ежегодной конференции, Google I/O 2024, корпорация Google решила подогреть интерес публики, представив весьма любопытную новинку.
До недавнего времени чат-боты на базе искусственного интеллекта были сосредоточены преимущественно на обработке текста и изображений. Однако ученые Google видят гораздо более широкие перспективы для подобных многомодальных ассистентов. В демонстрации от Google показана усовершенствованная версия Gemini, способная анализировать видеопоток в реальном времени. Более подробно об этой технологии обещают рассказать в ходе сегодняшнего основного доклада на I/O.
На ролике , который, судя по всему, был снят во время подготовки конференц-площадки, мы видим Gemini, запущенный на смартфоне Pixel. Помощник использует камеру гаджета для обзора окружающей обстановки, одновременно обрабатывая голосовые команды пользователя. Сначала Gemini задают вопрос: «Что, по твоему мнению, здесь происходит?». Ассистент безошибочно опознает сцену для подготовки к крупному мероприятию.
Затем модель сама задает пользователю уточняющий вопрос: «Есть ли что-нибудь, что особенно привлекло твое внимание?». Gemini естественным образом продолжает беседу, переключая фокус на буквы, виднеющиеся на заднем плане. Помощник объясняет, что это логотип Google I/O — ежегодного события для разработчиков, а также вкратце описывает его суть.
Демонстрация уже произвела на специалистов и пользователей впечатляющий эффект — не только из-за многомодального взаимодействия на основе видео и голоса, но и благодаря плавности и естественности самого диалога между человеком и машиной.
Впрочем, стоит принять во внимание, что ранее Google уже показывала похожий ролик с разговорным Gemini, который, как выяснилось позже, оказался слишком хорош, чтобы быть правдой. Пока неясно, насколько серьезны намерения компании на этот раз.
То, что тизер был опубликован именно 13 мая — совсем не случайность. Видеоролик появился на платформе X менее чем за час до мероприятия OpenAI, на котором компания анонсировала выпуск новой версии ChatGPT со схожими функциями распознавания видео, причем совершенно бесплатной.
Живой, мертвый или в суперпозиции? Узнайте в нашем канале