От азартных игр к ИИ: алгоритм "Бандита" на стыке с фотонной революцией

От азартных игр к ИИ: алгоритм "Бандита" на стыке с фотонной революцией

Токийские ученые показали, как свет может изменить правила игры.

image

Как азартный игрок максимизирует выигрыши от ряда игровых автоматов? Этот вопрос лег в основу "проблемы многорукого бандита", распространенной задачи в обучении с подкреплением, где "агенты" принимают решения для получения наград. Недавно международная исследовательская группа под руководством Хироаки Шинкава из Токийского университета представила расширенную схему фотонного обучения с подкреплением, переходя от статической проблемы бандита к более сложной динамической среде. Результаты исследования были опубликованы в журнале Intelligent Computing.

Ключевым элементом новой схемы является сочетание фотонной системы, направленной на улучшение качества обучения, и вспомогательного алгоритма. Исследователи разработали модифицированный алгоритм Q-обучения и проверили его эффективность с помощью численных симуляций.

Особенностью примененного алгоритма является использование параллельной архитектуры: множество агентов действует одновременно. Главное условие для ускорения процесса параллельного обучения - избежание противоречивых решений, используя квантовое вмешательство фотонов.

Хотя применение квантового вмешательства фотонов в этой области не ново, исследователи считают, что их работа - первая, сочетающая фотонное кооперативное принятие решений с Q-обучением в динамической среде.

В рамках этого исследования рассматривается "мировая сетка" - коллекция ячеек с различными наградами. В такой среде следующий ход агента полностью зависит от его текущего хода и местоположения.

В симуляциях использовалась сетка размером 5x5 ячеек. Важным аспектом является баланс между "эксплуатацией" известных пар с высокими значениями для более быстрого обучения и "исследованием" редко посещаемых пар в поисках потенциально более высоких наград. Для этого используется алгоритм softmax.

В дальнейшем авторы планируют разработать фотонную систему, поддерживающую принятие решений без конфликтов для трех и более агентов, а также развивать алгоритмы, позволяющие агентам действовать непрерывно.

Квантовый кот Шрёдингера ищет хозяина!

Живой, мертвый или в суперпозиции? Узнайте в нашем канале

Откройте коробку любопытства — подпишитесь