Что такое KANs и как они приведут нас к термоядерному синтезу.
Исследователи разработали принципиально новый подход к построению нейронных сетей, которые во многом превосходят традиционные системы. «Сети Колмогорова-Арнольда» (KANs) отличаются большей интерпретируемостью и точностью даже при меньшем размере.
KANs основаны на теореме представления Колмогорова-Арнольда, сформулированной в середине XX века. Эта теорема утверждает, что любую непрерывную функцию нескольких переменных можно представить как суперпозицию функций одной переменной и операций сложения. Именно этот принцип лег в основу новой архитектуры и позволил более эффективно моделировать сложные зависимости.
В классических нейросетях, известных как многослойные персептроны, каждый синапс (связь между нейронами) обучается весу – числу, определяющему силу связи. В KANs синапсы играют более сложную роль: они обучаются целым функциям, отображающим вход в выход. Эти функции представляют собой комбинации нескольких более простых функций, и уникальны для каждого синапса. При этом сами нейроны в KANs становятся проще: их задача сводится лишь к суммированию выходов всех предшествующих синапсов.
Такой подход обеспечивает большую гибкость при обучении и позволяет использовать меньше параметров. Разработчики утверждают, что способность сетей Колмогорова-Арнольда лаконично представлять физические данные может помочь учёным открыть новые законы природы.
Зиминг Лю, специалист по компьютерным наукам из Массачусетского технологического института и ведущий автор исследования, рассказывает о потенциале KAN: "Мы надеемся, что в будущем эта технология станет полезным инструментом для повседневных научных исследований. Если мы получим набор данных, который будет невозможно интерпретировать, можно будет передать его KAN, и она сгенерирует для нас гипотезы. Сможем изучать структуру сети и даже вносить в неё изменения, если потребуется".
Исследователи протестировали технологию на относительно простых научных задачах. В некоторых экспериментах они использовали базовые физические законы, например, формулу скорости, с которой два объекта, движущихся с околосветовой скоростью, проходят друг мимо друга. Результаты показали, что увеличение размера KANs улучшает их производительность быстрее, чем аналогичное увеличение размера многослойных персептронов. При решении дифференциальных уравнений в частных производных KANs оказались в 100 раз точнее, чем многослойный персептрон, имеющий в 100 раз больше параметров.
Новая архитектура уже привлекла внимание научного сообщества. Десятки статей цитируют препринт о сетях Колмогорова-Арнольда. Александр Боднер, студент-бакалавр компьютерных наук Университета Сан-Андрес в Аргентине, вместе с тремя однокурсниками за неделю объединил KANs со сверточными нейронными сетями (CNN), популярной архитектурой для обработки изображений. Их лучшая Сверточная KANs по точности не уступила традиционной CNN, но использовала примерно на 60% меньше параметров.
Несмотря на то, что KANs требуют больше времени на обучение каждого параметра, они нуждаются в меньшем количестве параметров в целом. Лю отмечает, что даже если новая разработка не заменит гигантские CNN и трансформеры для обработки изображений и языка, время обучения не будет проблемой в масштабе многих физических задач. Он исследует способы, позволяющие экспертам вносить свои предварительные знания в KANs и легко извлекать информацию из них, используя интуитивно понятный интерфейс.
В перспективе KANs могут помочь физикам в открытии высокотемпературных сверхпроводников или разработке методов управления термоядерным синтезом, открывая новые горизонты в области искусственного интеллекта и фундаментальной науки.
Спойлер: мы раскрываем их любимые трюки