Теперь создание инновационных решений возможно прямо на локальных процессорах.
Компания Google представила открытый набор инструментов под названием localllm, который позволяет разработчикам использовать преимущества больших языковых моделей (LLM) непосредственно на локальных процессорах или в рамках Workstations — полностью управляемой среды разработки в облаке Google Cloud. Нововведение открывает перед специалистами в области машинного обучения и искусственного интеллекта новые возможности для создания и тестирования своих проектов, обеспечивая при этом высокий уровень защиты и конфиденциальности данных.
Языковые модели размещены на платформе Hugging Face и находятся в репозитории The Bloke. Одной из ключевых особенностей этих моделей является их совместимость с методом квантования, что делает их пригодными для работы на процессорах или графических процессорах с низким энергопотреблением.
Квантованные модели - это модели искусственного интеллекта, оптимизированные для работы на локальных устройствах с ограниченными вычислительными ресурсами. Эти модели разработаны таким образом, чтобы быть более эффективными с точки зрения использования памяти и вычислительной мощности, что позволяет им бесперебойно работать на таких устройствах, как смартфоны, ноутбуки и других периферийных устройствах. В Google предложили разворачивать такие модели на облачных рабочих станциях.
Модели оптимизированы для выполнения вычислений с использованием типов данных более низкой точности, таких как 8-битные целые числа, вместо стандартных 32-битных чисел с плавающей запятой. За счёт представления весов и активаций меньшим количеством битов общий размер модели уменьшается, что облегчает ее размещение на устройствах с ограниченной ёмкостью памяти. Квантованные модели могут выполнять вычисления быстрее из-за меньшей точности и меньшего размера.
Подход Google, основанный на совмещении квантовых моделей и облачных рабочих станций, позволяет разработчикам воспользоваться всеми преимуществами гибкости, масштабируемости и экономической эффективности этой платформы.
localllm предоставляет собой набор инструментов и библиотек для легкого доступа к квантованным моделям из HuggingFace через утилиту командной строки. Этот репозиторий предоставляет комплексную структуру и инструменты для локального запуска LLM на ЦП и в памяти прямо на Google Cloud Workstation или на компьютере или ином устройстве. localllm интегрируется с различными сервисами Google Cloud, включая хранилище данных, API машинного обучения и т.д.
Для начала работы с localllm разработчикам необходимо зайти на репозиторий GitHub , где они найдут подробную документацию, примеры кода и инструкции по настройке и использованию LLM локально на процессоре и в облачной среде Google Cloud. Процесс включает установку набора инструментов, загрузку и запуск модели из HuggingFace, а также выполнение первоначального запроса для проверки работоспособности.
От классики до авангарда — наука во всех жанрах