Самая масштабная мультимодальная модель от Google бьет мировые рекорды.
Корпорация Google объявила о выпуске новейшей разработки — Gemini 1.5 Pro, самой масштабной мультимодальной языковой модели на сегодняшний день. Главной ее отличительной чертой является беспрецедентный размер контекстного окна — 1 миллион токенов, что более чем в 4 раза превосходит прежний рекорд, установленный моделью Claude 2.1 от компании Anthropic.
Колоссальная длина контекста дает модели принципиально новые возможности. Она теперь способна анализировать и извлекать смысл из сверхдлинных документов, книг, программных кодов и другого контента, который ранее приходилось обрабатывать по частям, жертвуя целостностью понимания. Это открывает широкие перспективы для работы с объемными данными в самых разных отраслях.
Gemini 1.5 Pro также впечатляет своей точностью. Она демонстрирует близкую к идеальной скорость предсказания следующего токена и извлечения информации — свыше 99% даже для последовательностей длиной до 10 миллионов токенов.
Отличительной особенностью архитектуры Gemini 1.5 Pro является архитектура «mixture of experts» (дословно — смеси экспертов). Этот подход позволяет повысить производительность нейросети, распределяя сложные задачи между специализированными подмоделями-«экспертами». Каждый «эксперт» сфокусирован на решении определенного класса подзадач, что обеспечивает обработку входных данных наиболее эффективным образом.
Обучение модели потребовало колоссальных вычислительных мощностей. Gemini 1.5 Pro натренирована на многоязычных данных, включая веб-документы, программные коды, аудио и видеоконтент, с использованием кластеров из 4096 ускорителей TPUv4 от Google.
Модель также извлекает и интерпретирует информацию из аудио и видео. К примеру, она может преобразовать аудиозапись 100-тысячного по длине токенов лекционного курса в интерактивный мультимедийный квиз с ключами ответов. Или, наоборот, создать подробную аннотированную видеоэкскурсию длительностью 200 тысяч токенов по складским помещениям с указанием расположения любого товара.
Помимо применения в обработке естественного языка, Gemini 1.5 Pro будет крайне полезна для разработчиков программного обеспечения. Теперь крупные кодовые базы можно загружать в модель единым блоком, после чего она сможет проанализировать структуру и взаимосвязи кода на качественно новом уровне.
К примеру, библиотека JAX насчитывает 746 152 токена, и Gemini 1.5 Pro не составит труда обработать ее целиком. После загрузки JAX модель точно укажет местоположение ключевых методов и функций. Например, она может локализовать реализацию одного из ключевых алгоритмов для обучения нейронных сетей — метода обратного распространения ошибки.
Тем не менее, широкое контекстное окно, столь впечатляющее своими возможностями, таит и определенные риски. Согласно исследованиям Anthropic , злоумышленники могут использовать массированные сверхдлинные запросы для преодоления защитных механизмов языковой модели и принуждения ее к нежелательному поведению.
Ладно, не доказали. Но мы работаем над этим