Grok-1.5V стал первым шагом к созданию ИИ, который может разделять пространство и время.
Компания Илона Маска xAI представила свою первую мультимодальную модель, Grok 1.5 Vision (Grok-1.5V). Модель разработана для конкуренции с OpenAI и обладает возможностью анализа текстов, документов, графиков, диаграмм, скриншотов и фотографий.
В ноябре 2023 года компания выпустила первую версию своей модели Grok, а в марте xAI опубликовала в открытом доступе архитектуру и веса базовой модели. Новая мультимодальная модель Grok 1.5 Vision появилась всего через месяц после.
Согласно данным с сайта компании, Grok 1.5V способен связывать физический и цифровой миры. Модель может, например, преобразовать изображение блок-схемы в код Python или рассчитать калорийность продукта по этикетке с пищевой ценностью. Также она может создать сказку на основе рисунка ребенка или объяснить, почему смешной тот или иной мем.
Пример работы с Grok 1.5V (переведено)
Модель не только развлекает, но и выполняет практические задачи: преобразует таблицы в формат CSV, помогает исправлять ошибки в коде, а также дает советы по ремонту дома на основе предоставленных изображений. Результаты тестов показали, что Grok 1.5V значительно превосходит другие модели ИИ.
Сравнение выполнения различных задач Grok 1.5V с другими моделями
Кроме того, xAI представила новый бенчмарк RealWorldQA, который оценивает способность понимания реального мира в пространственном аспекте. Новый бенчмарк RealWorldQA создан для оценки базовых способностей понимания реального мира мультимодальными моделями.
Несмотря на то, что многие задачи из бенчмарка кажутся простыми для человека, они представляют сложность для современных моделей. В первом выпуске RealWorldQA представлено более 700 изображений с вопросами и проверяемыми ответами, включая анонимизированные изображения из транспортных средств и другие реальные сценарии. Набор данных доступен для скачивания под лицензией CC BY-ND 4.0.
Тест для определения пространственного восприятия модели (переведено)
Илон Маск в недавнем интервью выразил мнение, что к концу 2025 года ИИ будет умнее любого человека. Все внимание теперь приковано к тому, какие улучшения внесет его компания в разработку ИИ в ближайшие месяцы. Компания xAI также планирует значительные улучшения в других областях, таких как аудио, голос и видео.
Модель Grok 1.5 Vision в скором времени станет доступна для тестирования существующим пользователям.
Разбираем кейсы, делимся опытом, учимся на чужих ошибках