Новый продукт Microsoft упрощает работу LLM с большими данными.
Команда программистов и специалистов по искусственному интеллекту (ИИ) из Microsoft разработала инновационный инструмент под названием SpreadsheetLLM, который применяет возможности больших языковых моделей (LLM) к электронным таблицам. Это изобретение может кардинально изменить способы использования и анализа данных в бизнесе и других сферах.
В основе SpreadsheetLLM лежит технология SheetCompressor - уникальная система кодирования, которая эффективно сжимает электронные таблицы для их обработки искусственным интеллектом. До сих пор такие модели, как ChatGPT, испытывали трудности с интерпретацией данных в формате электронных таблиц из-за их специфической структуры и функциональности.
SheetCompressor работает в три этапа: сжатие, перевод и агрегирование данных. На этапе сжатия в таблицу добавляются специальные "якоря", помогающие ИИ проанализировать структуру и назначение таблицы. Затем строки и столбцы заменяются упрощенной схемой. На этапе перевода удаляются пустые ячейки и повторяющиеся значения. Финальный этап включает применение обратного индекса без потерь в формате JSON для агрегирования.
Команда разработчиков также добавила дополнительные модули для обработки особых ситуаций, например, для работы с соседними ячейками, содержащими похожие числовые форматы.
Созданный инструмент позволяет большим языковым моделям эффективно работать с электронными таблицами как с источниками данных. Это касается не только автоматизации ввода данных, но и их анализа, а также представления сложной информации в понятном виде для пользователей с разным уровнем подготовки.
Исследование команды Microsoft, описывающее SpreadsheetLLM и SheetCompressor, уже опубликовано на сервере препринтов arXiv. Научному сообществу еще предстоит ознакомиться с этой технологией и оценить ее потенциал для развития искусственного интеллекта и обработки данных.
Одно найти легче, чем другое. Спойлер: это не темная материя