DeepMind придумала "безотходное" использование ИИ, который может обучаться на сжатых данных.
Эффективное сжатие данных важно для уменьшения их размера без потери информации. Хороший алгоритм может точно предсказать следующий элемент в последовательности, выявляя закономерности. По словам исследователей, большие языковые модели, такие как GPT-4, хорошо справляются с этой задачей.
Специалисты из DeepMind показали , что модель DeepMind Chinchilla 70B способна уменьшить размер изображений из базы данных ImageNet до 43,4% от их исходного размера без потери информации, что эффективнее, чем алгоритм PNG, который сжал данные до 58,5% от исходного размера. Для аудио Chinchilla сжала образцы из набора данных LibriSpeech до 16,4% их исходного размера, превзойдя сжатие FLAC, которое составило 30,3%.
Результаты испытаний на сжатие. Первоначальный размер данных составляет 1 ГБ. Таблица использует соотношение «меньше — лучше», сравнивая сжатый размер с исходным размером.
Сжатие без потерь означает, что данные не теряются в процессе сжатия, в отличие от сжатия с потерями, как в JPEG. Результаты исследования указывают на то, что, хотя Chinchilla 70B в основном была обучена работать с текстом, она эффективно сжимает и другие типы данных, часто лучше специализированных алгоритмов.
Так, хорошее сжатие данных может указывать на форму общего интеллекта. Уменьшив большой объем данных до меньшей формы, алгоритм сжатия демонстрирует форму понимания самих данных. В случае с текстом, эффективное сжатие текста требует понимания семантических и синтаксических закономерностей языка.
Пример сжатия текста gzip и Chinchilla. Сжатый материал gzip нечитабельный
Исследователи DeepMind утверждают, что отношения между предсказанием и сжатием не односторонние. Если у вас есть хороший алгоритм сжатия, вы можете использовать его для создания новых данных на основе того, что алгоритм узнал в процессе сжатия.
В одном эксперименте исследователи попытались сгенерировать новые данные в различных форматах с помощью утилиты сжатия gzip и Chinchilla. Gzip показал неудовлетворительные результаты, а Chinchilla, разработанная с учетом обработки языка, справилась с генеративной задачей гораздо лучше.
Заключение исследования обнадеживает: модель Chinchilla 70B от DeepMind показывает, что искусственный интеллект может не только эффективно сжимать данные, но и заменить существующие алгоритмы, такие как PNG. Прогресс открывает новые возможности для улучшения хранения и передачи данных, делая технологии сжатия данных более эффективными и доступными. Новые горизонты, которые открывает Chinchilla AI, возможно, изменят способ нашего взаимодействия с данными в ближайшем будущем.
Одно найти легче, чем другое. Спойлер: это не темная материя