Mistral не отстает: Large 2 превосходит Llama 3.1 и дышит в спину GPT-4

Mistral не отстает: Large 2 превосходит Llama 3.1 и дышит в спину GPT-4

Искусственный интеллект говорит на десятках языках и понимает сотни кодов.

image

Mistral представила новейшую флагманскую модель Large 2, которая призвана составить конкуренцию OpenAI и Meta* в генерации кода, математике и логике. Выпуск Large 2 произошел всего через день после релиза новой модели Meta Llama 3.1 405B с открытым исходным кодом.

Используя всего 123 миллиарда параметров, Large 2 превосходит Llama 3.1 405B по производительности в генерации кода и математике, и работает на одном уровне с ведущими моделями GPT-4o, Claude 3 Opus. В частности, по эталону MMLU предобученная версия достигает точности 84,0%. По заявлению Mistral, Large 2 формулирует более сжатые ответы по сравнению с ведущими моделями ИИ, которые часто излишне многословны.

Сравнение производительности Large 2 и Llama 3.1 в генерации кода и математике

Одним из ключевых направлений при обучении модели было минимизировать проблемы с «галлюцинациями», то есть ошибочными ответами. Модель была обучена более осторожно реагировать на запросы, признавая, когда она чего-то не знает, вместо того чтобы придумывать правдоподобные, но неверные ответы.

Важно отметить, что модели Mistral, как и большинство других, не являются открытыми в традиционном смысле – для коммерческого использования модели требуется платная лицензия. И хотя модель более открыта, чем, например, GPT-4, лишь немногие в мире обладают достаточным опытом и инфраструктурой для реализации таких масштабных моделей.

Чего не хватает в Mistral Large 2 (как и в Llama 3.1) – мультимодальные возможности. В области мультимодальных систем, способных обрабатывать изображения и текст одновременно, OpenAI значительно опережает конкурентов, и некоторые стартапы активно стремятся внедрить такие функции.

Точность производительности в тестах генерации кода (все модели тестировались с использованием одного и того же конвейера оценки)

Large 2 может обрабатывать до 128 000 токенов за один запрос, что эквивалентно примерно 300 страницам книги. Новая модель также улучшила поддержку нескольких языков. Large 2 понимает десятки языков, в том числе английский, французский, немецкий, испанский, русский, китайский и другие, а также 80 языков программирования, включая Python, Java, C, C++, JavaScript и Bash.

Точность производительности на MultiPL-E (все модели были протестированы с использованием одного и того же оценочного конвейера, за исключением строки «на бумаге»)

Использовать Large 2 можно на платформах Google Vertex AI, Amazon Bedrock, Azure AI Studio и IBM watsonx.ai. Модель также доступна на платформе Mistral под названием «mistral-large-2407» и доступна для бесплатного тестирования на платформе Mistral le Chat . Веса для модели доступны и также размещены на HuggingFace.

* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.

Кодовое слово дня — безопасность.

Узнай больше — подпишись на нас!