Qwen2.5-VL: ИИ от Alibaba берет штурвал компьютера в свои руки

Qwen2.5-VL: ИИ от Alibaba берет штурвал компьютера в свои руки

Обновленная модель больше не нуждается в указаниях.

image

Китайская компания Alibaba выпустила обновленную версию своей модели искусственного интеллекта Qwen2.5-VL . Теперь система не только лучше работает с изображениями и видео, но и, что особенно важно, может напрямую взаимодействовать с компьютерами и смартфонами.

Разработчики предлагают модель в трех вариантах — на 3, 7 и 72 миллиарда параметров. Каждая версия умеет анализировать самый разный визуальный контент: от простых картинок до сложных диаграмм, графиков и интерфейсов. Стоит отметить, что похожие возможности управлять устройствами есть только у подписчиков OpenAI Pro, которые платят 200 долларов в месяц за режим "operator mode".

Команда Alibaba рассказала, что новая версия заметно продвинулась в том, как распознает изображения. Система теперь различает элементы из фильмов, телешоу и разных продуктов, что существенно расширяет её возможности при работе с медиаконтентом.

Qwen2.5-VL также научилась работать с длинными видео — больше часа. Она может найти нужный момент в записи и точно определить, что там происходит.

Когда команда Qwen проверила свою модель с 72 миллиардами параметров, выяснилось, что она превосходит известные системы Gemini 2 flash, GPT-4o и Claude 3.5 Sonnet там, где нужно разбираться в документах, диаграммах и видео.

Разработчики продолжают улучшать систему — скоро она научится лучше рассуждать логически. А пока любой желающий может попробовать Qwen2.5-VL: достаточно скачать фирменное приложение для чата или установить модель через платформу Hugging Face.

Поскольку система создана с учетом требований китайских регуляторов, в её работе есть определенные рамки. Например, если попросить её создать изображения политиков — будь то Си Цзиньпин, Джо Байден или Дональд Трамп — она ответит сообщением об ошибке.

Как пишет Techcrunch, чат-бот также не станет обсуждать противоречивые политические темы вроде промахов Си Цзиньпина.

Другая китайская компания DeepSeek недавно выпустила свою модель R1 . Она показала: создавать мощные ИИ-системы можно и с меньшими затратами на дорогие чипы Nvidia, чем тратят западные компании. О том, как успешно развиваются технологии из Поднебесной в сфере ИИ, говорит и тот факт, что приложение DeepSeek R1 вышло на первое место по загрузкам в App Store, обогнав даже знаменитый ChatGPT от OpenAI.

Красная или синяя таблетка?

В Матрице безопасности выбор очевиден

Выберите реальность — подпишитесь