| Description: |
В докладе1 изучаются характеристики динамики системы, состоящей из N игроков, находящихся в узлах графа, результат взаимодействия между которыми в рамках одного периода описывается классической дилеммой заключенных. Поскольку рассматривается динамическая версия игры, агенты максимизируют не текущий однопериодный выигрыш, а суммарную приведенную ожидаемую полезность за весь период игры и, таким образом, действуют дальновидно. Изучается возможность использования алгоритмов обучения с подкреплением для реализации такой дальновидной стратегии игроков. Интерес представляет изучение свойств алгоритмов, позволяющих получить кооперирование двух агентов. Одним из таких свойств является необходимость разделения динамики на две стадии: обучение и непосредственно игра. Кроме того, изучается зависимость свойств динамики от степени дальновидности агентов. |