Обновленная модель больше не нуждается в указаниях.
Китайская компания Alibaba выпустила обновленную версию своей модели искусственного интеллекта Qwen2.5-VL . Теперь система не только лучше работает с изображениями и видео, но и, что особенно важно, может напрямую взаимодействовать с компьютерами и смартфонами.
Разработчики предлагают модель в трех вариантах — на 3, 7 и 72 миллиарда параметров. Каждая версия умеет анализировать самый разный визуальный контент: от простых картинок до сложных диаграмм, графиков и интерфейсов. Стоит отметить, что похожие возможности управлять устройствами есть только у подписчиков OpenAI Pro, которые платят 200 долларов в месяц за режим "operator mode".
Команда Alibaba рассказала, что новая версия заметно продвинулась в том, как распознает изображения. Система теперь различает элементы из фильмов, телешоу и разных продуктов, что существенно расширяет её возможности при работе с медиаконтентом.
Qwen2.5-VL также научилась работать с длинными видео — больше часа. Она может найти нужный момент в записи и точно определить, что там происходит.
Когда команда Qwen проверила свою модель с 72 миллиардами параметров, выяснилось, что она превосходит известные системы Gemini 2 flash, GPT-4o и Claude 3.5 Sonnet там, где нужно разбираться в документах, диаграммах и видео.
Разработчики продолжают улучшать систему — скоро она научится лучше рассуждать логически. А пока любой желающий может попробовать Qwen2.5-VL: достаточно скачать фирменное приложение для чата или установить модель через платформу Hugging Face.
Поскольку система создана с учетом требований китайских регуляторов, в её работе есть определенные рамки. Например, если попросить её создать изображения политиков — будь то Си Цзиньпин, Джо Байден или Дональд Трамп — она ответит сообщением об ошибке.
Как пишет Techcrunch, чат-бот также не станет обсуждать противоречивые политические темы вроде промахов Си Цзиньпина.
Другая китайская компания DeepSeek недавно выпустила свою модель R1 . Она показала: создавать мощные ИИ-системы можно и с меньшими затратами на дорогие чипы Nvidia, чем тратят западные компании. О том, как успешно развиваются технологии из Поднебесной в сфере ИИ, говорит и тот факт, что приложение DeepSeek R1 вышло на первое место по загрузкам в App Store, обогнав даже знаменитый ChatGPT от OpenAI.
В Матрице безопасности выбор очевиден