Gemini 1.5 Pro: миллион токенов для обработки гигантского объема данных

12:28 / 2 мая, 2024

Самая масштабная мультимодальная модель от Google бьет мировые рекорды.

Корпорация Google объявила о выпуске новейшей разработки — Gemini 1.5 Pro, самой масштабной мультимодальной языковой модели на сегодняшний день. Главной ее отличительной чертой является беспрецедентный размер контекстного окна — 1 миллион токенов, что более чем в 4 раза превосходит прежний рекорд, установленный моделью Claude 2.1 от компании Anthropic.

Колоссальная длина контекста дает модели принципиально новые возможности. Она теперь способна анализировать и извлекать смысл из сверхдлинных документов, книг, программных кодов и другого контента, который ранее приходилось обрабатывать по частям, жертвуя целостностью понимания. Это открывает широкие перспективы для работы с объемными данными в самых разных отраслях.

Gemini 1.5 Pro также впечатляет своей точностью. Она демонстрирует близкую к идеальной скорость предсказания следующего токена и извлечения информации — свыше 99% даже для последовательностей длиной до 10 миллионов токенов.

Отличительной особенностью архитектуры Gemini 1.5 Pro является архитектура «mixture of experts» (дословно — смеси экспертов). Этот подход позволяет повысить производительность нейросети, распределяя сложные задачи между специализированными подмоделями-«экспертами». Каждый «эксперт» сфокусирован на решении определенного класса подзадач, что обеспечивает обработку входных данных наиболее эффективным образом.

Обучение модели потребовало колоссальных вычислительных мощностей. Gemini 1.5 Pro натренирована на многоязычных данных, включая веб-документы, программные коды, аудио и видеоконтент, с использованием кластеров из 4096 ускорителей TPUv4 от Google.

Модель также извлекает и интерпретирует информацию из аудио и видео. К примеру, она может преобразовать аудиозапись 100-тысячного по длине токенов лекционного курса в интерактивный мультимедийный квиз с ключами ответов. Или, наоборот, создать подробную аннотированную видеоэкскурсию длительностью 200 тысяч токенов по складским помещениям с указанием расположения любого товара.

Помимо применения в обработке естественного языка, Gemini 1.5 Pro будет крайне полезна для разработчиков программного обеспечения. Теперь крупные кодовые базы можно загружать в модель единым блоком, после чего она сможет проанализировать структуру и взаимосвязи кода на качественно новом уровне.

К примеру, библиотека JAX насчитывает 746 152 токена, и Gemini 1.5 Pro не составит труда обработать ее целиком. После загрузки JAX модель точно укажет местоположение ключевых методов и функций. Например, она может локализовать реализацию одного из ключевых алгоритмов для обучения нейронных сетей — метода обратного распространения ошибки.

Тем не менее, широкое контекстное окно, столь впечатляющее своими возможностями, таит и определенные риски. Согласно исследованиям Anthropic , злоумышленники могут использовать массированные сверхдлинные запросы для преодоления защитных механизмов языковой модели и принуждения ее к нежелательному поведению.

Ваша приватность умирает красиво, но мы можем спасти её.

Присоединяйтесь к нам!

Gemini 1.5 Pro: миллион токенов для обработки гигантского объема данных

Ваша приватность умирает красиво, но мы можем спасти её.

Новости по теме

I/O 2024: разработчики рассказали, какое будущее ждет Google-поиск

Китай рвётся в лидеры: местное производство HBM-чипов запущено

«Угрюмые лица Junior-разработчиков»: ИИ вытесняет людей с рынка труда

Inspect: открытая платформа для тестирования безопасности ИИ

Просчет Google поставил под сомнение надежность всех облачных серверов

Китай такой один: чем новые санкции могут обернуться для Nvidia?

Переехать или остаться: Microsoft поставила 800 инженеров в Китае перед непростым выбором

CVE-2024-4947: Google устранила ещё одну 0day уязвимость в Chrome

Новая эра безопасности Android: теперь ваш смартфон сам знает, как себя защитить

Gemini 1.5 Pro: миллион токенов для обработки гигантского объема данных

Ваша приватность умирает красиво, но мы можем спасти её.

Новости по теме

I/O 2024: разработчики рассказали, какое будущее ждет Google-поиск

Китай рвётся в лидеры: местное производство HBM-чипов запущено

«Угрюмые лица Junior-разработчиков»: ИИ вытесняет людей с рынка труда

Inspect: открытая платформа для тестирования безопасности ИИ

Просчет Google поставил под сомнение надежность всех облачных серверов

Китай такой один: чем новые санкции могут обернуться для Nvidia?

Переехать или остаться: Microsoft поставила 800 инженеров в Китае перед непростым выбором

CVE-2024-4947: Google устранила ещё одну 0day уязвимость в Chrome

Новая эра безопасности Android: теперь ваш смартфон сам знает, как себя защитить

Подпишитесь на email рассылку