Gemini, что происходит? Чат-бот научился комментировать видео в реальном времени

Gemini, что происходит? Чат-бот научился комментировать видео в реальном времени

Обновленная модель от Google выйдет за рамки текста и картинок. Только бы это оказалось правдой…

image

Ровно за день до своей ежегодной конференции, Google I/O 2024, корпорация Google решила подогреть интерес публики, представив весьма любопытную новинку.

До недавнего времени чат-боты на базе искусственного интеллекта были сосредоточены преимущественно на обработке текста и изображений. Однако ученые Google видят гораздо более широкие перспективы для подобных многомодальных ассистентов. В демонстрации от Google показана усовершенствованная версия Gemini, способная анализировать видеопоток в реальном времени. Более подробно об этой технологии обещают рассказать в ходе сегодняшнего основного доклада на I/O.

На ролике , который, судя по всему, был снят во время подготовки конференц-площадки, мы видим Gemini, запущенный на смартфоне Pixel. Помощник использует камеру гаджета для обзора окружающей обстановки, одновременно обрабатывая голосовые команды пользователя. Сначала Gemini задают вопрос: «Что, по твоему мнению, здесь происходит?». Ассистент безошибочно опознает сцену для подготовки к крупному мероприятию.

Затем модель сама задает пользователю уточняющий вопрос: «Есть ли что-нибудь, что особенно привлекло твое внимание?». Gemini естественным образом продолжает беседу, переключая фокус на буквы, виднеющиеся на заднем плане. Помощник объясняет, что это логотип Google I/O — ежегодного события для разработчиков, а также вкратце описывает его суть.

Демонстрация уже произвела на специалистов и пользователей впечатляющий эффект — не только из-за многомодального взаимодействия на основе видео и голоса, но и благодаря плавности и естественности самого диалога между человеком и машиной.

Впрочем, стоит принять во внимание, что ранее Google уже показывала похожий ролик с разговорным Gemini, который, как выяснилось позже, оказался слишком хорош, чтобы быть правдой. Пока неясно, насколько серьезны намерения компании на этот раз.

То, что тизер был опубликован именно 13 мая — совсем не случайность. Видеоролик появился на платформе X менее чем за час до мероприятия OpenAI, на котором компания анонсировала выпуск новой версии ChatGPT со схожими функциями распознавания видео, причем совершенно бесплатной.

Квантовый кот Шрёдингера ищет хозяина!

Живой, мертвый или в суперпозиции? Узнайте в нашем канале

Откройте коробку любопытства — подпишитесь