Китайская разработка показала мощные результаты в aider polyglot benchmark.
Китайская компания DeepSeek, финансируемая хедж-фондом High-Flyer, представила новую языковую модель DeepSeek-V3 с 685 миллиардами параметров. В основе архитектуры лежит подход Mixture of Experts (MoE) с 256 экспертами , из которых восемь активируются при обработке каждого токена. По сравнению с предыдущей версией, модель способна работать с большим объёмом данных, обладает расширенным словарным запасом и обновлённой архитектурой.
DeepSeek-V3 продемонстрировала результаты в тестировании Aider Polyglot Benchmark, где оцениваются возможности моделей в решении 225 сложных задач на языках C++, Go, Java, JavaScript, Python и Rust. В ходе тестирования модель справилась с 48,4% задач, заняв второе место в рейтинге. Она уступила модели o1-2024-12-17 с результатом 61,7%, но обошла Claude-3-5-sonnet-20241022 (45,3%) и Gemini-exp-1206 (38,2%). Модель также достигла 98,7% успешного форматирования изменений в коде.
Эти результаты опубликованы в рейтинге Aider LLM Leaderboards. Кроме работы с кодом, DeepSeek-V3 продемонстрировала мультимодальные возможности, включая анализ диаграмм, обработку научных текстов, понимание изображений и создание текстов. Модель доступна для тестирования на сайте chat.deepseek.com .
Отдельной особенностью является различие в самоидентификации модели. На английском языке она представляется как «искусственный интеллект, разработанный исключительно компанией DeepSeek», а в русскоязычной версии указывает, что основана на архитектуре GPT-4.
Разбираем кейсы, делимся опытом, учимся на чужих ошибках