OpenAI, Claude и Google снова кусают локти.
Материнская компания TikTok ByteDance создала новую ИИ-модель UI-TARS , которая умеет самостоятельно пользоваться компьютером и справляться со сложными задачами. Разработчики выпустили две версии системы - с 7 и 72 миллиардами параметров, обучив их на базе данных объемом около 50 миллиардов токенов.
UI-TARS протестировали на десяти различных наборах данных, где он обошел решения OpenAI GPT-4o, Claude от Anthropic и Gemini от Google. Специалисты из ByteDance и университета Цинхуа подчеркивают: система непрерывно развивается: она учится на своих ошибках благодаря механизму с амоанализа и многократным тренировкам.
Использовать технологию можно на компьютерах, смартфонах и в браузере - она понимает текст, изображения и действия пользователя. На экране UI-TARS открывается в двух окнах: слева можно следить за ходом мыслей системы, справа она работает с файлами, сайтами и программами.
В одном из демонстрационных роликов UI-TARS поручили найти авиабилеты из Сиэтла в Нью-Йорк: вылет пятого числа следующего месяца, обратный рейс - десятого, результаты нужно отсортировать по цене. Система зашла на сайт Delta Airlines, вписала города вылета и прилета, указала даты и применила фильтры, объясняя каждый свой шаг.
Когда UI-TARS попросили установить расширение autoDocstring в редакторе VS Code, он проявил особую гибкость. Система дождалась, пока редактор полностью загрузится, нашла раздел с расширениями, повторила действие, когда первая попытка оказалась неточной, и проконтролировала установку до конца.
В тесте VisualWebBench, который проверяет, как модели работают с элементами веб-страниц, 72-миллиардная версия UI-TARS набрала 82.8% - выше, чем GPT-4o (78.5%) и Claude 3.5 (78.2%). Система точно распознает текст и проверяет качество веб-страниц.
На бенчмарке WebSRC, который оценивает, насколько хорошо модель понимает содержание и структуру веб-страниц, семимиллиардная версия UI-TARS достигла 93.6%. В тесте ScreenQA-short, где проверяется понимание сложных мобильных интерфейсов, 72-миллиардная модель показала результат 88.6%, опередив Qwen, Gemini, Claude 3.5 и GPT-4o.
UI-TARS также успешно справился с тестами ScreenSpot Pro и ScreenSpot v2 - они определяют, может ли программа находить и распознавать элементы графического интерфейса. Разработчики также проверили, как UI-TARS планирует сложные действия на смартфонах: для этого использовали тесты OSWorld и AndroidWorld со 116 программными задачами в 20 приложениях.
Чтобы обучить модель, исследователи собрали большую базу скриншотов с подробными данными об элементах интерфейса: их типах, описаниях, координатах, функциях и текстовом содержании из разных источников. Благодаря этому система научилась детально анализировать все, что происходит на экране.
Еще технология умеет отслеживать, что меняется между двумя последовательными скриншотами - так она определяет, какие действия были совершены: нажатия клавиш или клики мышью. С помощью технологии set-of-mark система помечает нужные области изображения буквами или цифрами, чтобы легче ориентироваться.
В UI-TARS встроены два типа памяти: краткосрочная и долгосрочная. Это позволяет не только решать текущие задачи, но и применять накопленный опыт, чтобы принимать более удачные решения в будущем. Система объединяет быстрое интуитивное мышление с неторопливым аналитическим.
Создатели уделили особое внимание тому, чтобы модель не теряла из виду главную цель и умела учиться методом проб и ошибок. Она выдвигает предположения, проверяет их и анализирует результаты, прежде чем завершить задачу. Для этого в обучающую базу добавили примеры того, как исправлять ошибки и восстанавливаться после сбоев.
На фоне других систем UI-TARS показывает более ровные результаты, работая с разными устройствами. Claude Computer Use хорошо справляется с задачами в браузере, но отстает на мобильных платформах, а этот ИИ одинаково эффективен в обоих случаях.
Лечим цифровую неграмотность без побочных эффектов