Gemini, что происходит? Чат-бот научился комментировать видео в реальном времени

15:10 / 14 мая, 2024

Обновленная модель от Google выйдет за рамки текста и картинок. Только бы это оказалось правдой…

Ровно за день до своей ежегодной конференции, Google I/O 2024, корпорация Google решила подогреть интерес публики, представив весьма любопытную новинку.

До недавнего времени чат-боты на базе искусственного интеллекта были сосредоточены преимущественно на обработке текста и изображений. Однако ученые Google видят гораздо более широкие перспективы для подобных многомодальных ассистентов. В демонстрации от Google показана усовершенствованная версия Gemini, способная анализировать видеопоток в реальном времени. Более подробно об этой технологии обещают рассказать в ходе сегодняшнего основного доклада на I/O.

На ролике, который, судя по всему, был снят во время подготовки конференц-площадки, мы видим Gemini, запущенный на смартфоне Pixel. Помощник использует камеру гаджета для обзора окружающей обстановки, одновременно обрабатывая голосовые команды пользователя. Сначала Gemini задают вопрос: «Что, по твоему мнению, здесь происходит?». Ассистент безошибочно опознает сцену для подготовки к крупному мероприятию.

Затем модель сама задает пользователю уточняющий вопрос: «Есть ли что-нибудь, что особенно привлекло твое внимание?». Gemini естественным образом продолжает беседу, переключая фокус на буквы, виднеющиеся на заднем плане. Помощник объясняет, что это логотип Google I/O — ежегодного события для разработчиков, а также вкратце описывает его суть.

Демонстрация уже произвела на специалистов и пользователей впечатляющий эффект — не только из-за многомодального взаимодействия на основе видео и голоса, но и благодаря плавности и естественности самого диалога между человеком и машиной.

Впрочем, стоит принять во внимание, что ранее Google уже показывала похожий ролик с разговорным Gemini, который, как выяснилось позже, оказался слишком хорош, чтобы быть правдой. Пока неясно, насколько серьезны намерения компании на этот раз.

То, что тизер был опубликован именно 13 мая — совсем не случайность. Видеоролик появился на платформе X менее чем за час до мероприятия OpenAI, на котором компания анонсировала выпуск новой версии ChatGPT со схожими функциями распознавания видео, причем совершенно бесплатной.

Хватит тратить время на ручные проверки и «накликивание»!

12 февраля на бесплатном вебинаре Security Vision покажем, как SGRC-подход создаёт «живую» безопасность. Меняем формальный контроль на стратегию вместе.

Регистрируйтесь!

Реклама. 18+ ООО «Интеллектуальная безопасность», ИНН 7719435412

0-day в деле

Gemini, что происходит? Чат-бот научился комментировать видео в реальном времени

Хватит тратить время на ручные проверки и «накликивание»!

Подпишитесь на email рассылку