Искусственный интеллект · 2025Персистентный метод Монте-Карло для деревьев решений для агентов в сложных средах: исследование на примере Citadels
Принятие решений в многопользовательских играх с частичной наблюдаемостью сопряжено со значительными трудностями из-за скрытой информации и высоких коэффициентов ветвления. В данном исследовании представлен фреймворк на основе персистентного метода Монте-Карло для деревьев решений (MCTS), разработанный для эффективной работы в подобных средах, с использованием стратегической настольной игры Citadels в качестве примера. Ключевым вкладом является разделение фазы построения дерева и фазы применения: деревья решений генерируются в автономном режиме с помощью симуляций среды, а соответствующая статистика хранится в табличной форме, что обеспечивает быстрые запросы во время выполнения без необходимости дополнительных симуляций. Экспериментальная оценка показывает, что воздействие разнообразных противников в процессе обучения позволяет создавать модели с устойчивыми и обобщаемыми стратегиями, способными демонстрировать высокую производительность в широком спектре игровых сценариев. В частности, модели, обученные в среде, где противники выбирались случайным образом, неизменно превосходили те, что обучались против одного типа противника, и демонстрировали стабильную производительность в разных обучающих прогонах. Полученные результаты подчёркивают эффективность сочетания MCTS с персистентным хранением знаний для создания быстрых, надёжных и адаптируемых агентов в сложных предметных областях.