От азартных игр к ИИ: алгоритм "Бандита" на стыке с фотонной революцией

09:42 / 22 августа, 2023

Токийские ученые показали, как свет может изменить правила игры.

Как азартный игрок максимизирует выигрыши от ряда игровых автоматов? Этот вопрос лег в основу "проблемы многорукого бандита", распространенной задачи в обучении с подкреплением, где "агенты" принимают решения для получения наград. Недавно международная исследовательская группа под руководством Хироаки Шинкава из Токийского университета представила расширенную схему фотонного обучения с подкреплением, переходя от статической проблемы бандита к более сложной динамической среде. Результаты исследования были опубликованы в журнале Intelligent Computing.

Ключевым элементом новой схемы является сочетание фотонной системы, направленной на улучшение качества обучения, и вспомогательного алгоритма. Исследователи разработали модифицированный алгоритм Q-обучения и проверили его эффективность с помощью численных симуляций.

Особенностью примененного алгоритма является использование параллельной архитектуры: множество агентов действует одновременно. Главное условие для ускорения процесса параллельного обучения - избежание противоречивых решений, используя квантовое вмешательство фотонов.

Хотя применение квантового вмешательства фотонов в этой области не ново, исследователи считают, что их работа - первая, сочетающая фотонное кооперативное принятие решений с Q-обучением в динамической среде.

В рамках этого исследования рассматривается "мировая сетка" - коллекция ячеек с различными наградами. В такой среде следующий ход агента полностью зависит от его текущего хода и местоположения.

В симуляциях использовалась сетка размером 5x5 ячеек. Важным аспектом является баланс между "эксплуатацией" известных пар с высокими значениями для более быстрого обучения и "исследованием" редко посещаемых пар в поисках потенциально более высоких наград. Для этого используется алгоритм softmax.

В дальнейшем авторы планируют разработать фотонную систему, поддерживающую принятие решений без конфликтов для трех и более агентов, а также развивать алгоритмы, позволяющие агентам действовать непрерывно.

ИЛЛЮМИНАТЫ, 5G И ВАША ГЛУПОСТЬ

Думаете, что «видите скрытые связи»? На самом деле ваш мозг просто сломался под весом интернета. Пока вы ищете масонские знаки в цифрах на чеке, вы теряете связь с реальностью. Разберитесь, почему ваш интеллект проигрывает битву с картинками из соцсетей и как не стать цифровым психопатом.

Включить критическое мышление

Слив засчитан

От азартных игр к ИИ: алгоритм "Бандита" на стыке с фотонной революцией

ИЛЛЮМИНАТЫ, 5G И ВАША ГЛУПОСТЬ

Подпишитесь на email рассылку