Когда «меньше» значит «быстрее»!
Специалисты из Microsoft разработали крупнейшую в своем классе нейросеть BitNet b1.58 2B4T, способную работать даже на обычных процессорах, включая чипы Apple M2. Модель распространяется под лицензией MIT и относится к особому классу систем, известных как "битнеты".
Главная особенность нового решения кроется в революционном подходе к сжатию данных. В то время как традиционные нейросети оперируют сложными числовыми значениями, битнеты используют всего три состояния: -1, 0 и 1. Таким образом требования к вычислительным ресурсам и объему памяти кардинально снижаются.
Разработчики особо подчеркивают, что их модель стала первой в классе битнетов, достигшей размера в 2 миллиарда параметров. Для обучения системы использовался внушительный массив данных объемом в 4 триллиона токенов, что сопоставимо с содержанием 33 миллионов книг.
При тестировании BitNet продемонстрировала впечатляющие результаты, превзойдя другие программы сопоставимого размера. Нейросеть успешно конкурирует с такими разработками, как Llama 3.2 1B от Meta, Gemma 3 1B от Google и Qwen 2.5 1.5B от Alibaba. Она показала высокие результаты как при решении математических задач уровня средней школы в тесте GSM8K, так и в оценке физического здравого смысла по методике PIQA.
Особого внимания заслуживает производительность. BitNet b1.58 2B4T не только не уступает конкурентам в точности, но и значительно превосходит их по скорости работы — в некоторых случаях демонстрируя двукратное преимущество. При этом потребляется существенно меньше оперативной памяти.
Впрочем, есть и ограничения. Чтобы достичь заявленных показателей, нужно использовать специальный фреймворк bitnet.cpp от Microsoft, который пока совместим лишь с ограниченным набором процессоров. Примечательно, что в список поддерживаемого оборудования не входят графические ускорители, которые сейчас составляют основу инфраструктуры искусственного интеллекта.
Несмотря на это, концепция битнетов выглядит многообещающе, особенно для устройств с ограниченными вычислительными ресурсами. При этом вопрос совместимости с различными аппаратными платформами остается ключевым фактором, способным повлиять на дальнейшее распространение этой технологии.