对手建模在《城堡风云》棋盘游戏中训练基于蒙特卡洛树搜索模型的研究
Arthur Camilotto, Felipe Grando, João Luis Almeida Santos, Eduardo V. P. Fiorentin, Djonatan R. C. Bonelli
摘要
本文研究了对手建模如何影响混合MCTS-RL框架的训练,该框架应用于具有隐藏信息、多名玩家和时间限制的多人棋盘游戏《城堡风云》。该方案通过离线从模拟中构建的持久决策结构将规划与执行解耦,从而降低MCTS的在线计算成本。在一个包含专家智能体和随机智能体的模拟环境中,通过胜率比较不同的训练会话(包括多样化环境)。结果表明,训练中策略的多样性往往能产生比针对单个强对手训练更鲁棒、更通用的智能体。
1. 引言
蒙特卡洛树搜索(MCTS)已成为棋盘游戏决策中的有效技术,结合了适应性和对领域特定知识的低使用。它在具有完美信息的确定性游戏中表现显著,例如围棋(SILVER et al., 2016)。
然而,其应用在具有多个玩家、隐藏信息和时间限制的环境中遇到重大限制,其中模拟的高计算成本和适应困难损害了决策的响应性和质量(POWLEY et al., 2014)。
在此背景下,集成MCTS和强化学习(RL)的混合方法显示出前景,通过允许规划阶段与执行解耦。持久决策结构的构建,以及搜索的预先存储,使得在游戏过程中能够即时选择动作,减少在线模拟的需求并保持战略深度(BROWNE, 2012; SWIECHOWSKI, 2023)。
在这项研究中,测试并开发了一种结合离线强化学习技术的混合MCTS模型。该模型在棋盘游戏《富饶之城》(FAIDUTTI, 2016)的模拟环境中,使用不同的对手进行训练和测试。
2. 总体目标
本研究的总体目标是开发一种混合MCTS-RL框架,能够以《富饶之城》为案例,在具有隐藏信息的多玩家棋盘游戏中高效运行。
该方案旨在通过离线构建持久决策结构,消除传统MCTS的计算瓶颈,从而在运行时实现快速且稳健的行动。
3. 方法
本研究被定性为一项应用实验研究,采用定性与定量分析相结合的方法。
第一阶段涉及为棋盘游戏《富饶之城》开发和适配数字模拟环境。随后,开发了五个具有定制策略的专家代理,旨在模仿人类玩家使用的真实策略,并开发了一个随机选择动作的基线代理。在验证环境和开发的代理之后,开始了混合MCTS-RL框架的开发。
MCTS模型本质上是一种启发式搜索算法,通过执行多次模拟来运作。对于这些模拟期间访问的每个不同游戏状态,在树数据结构中创建一个对应的节点。初始游戏状态代表该树的根节点。
然而,由于巨大的分支因子,存储整棵树并保留以供未来决策的提议是不可行的。为了实现这一点,有必要对树进行抽象:将游戏状态分解为其基本特征(例如,玩家的金币、手牌数量),并将每个特征映射到一个独立的数据表。
在这种结构中,表的行代表状态特征的可能值,列代表智能体可以采取的可能动作(例如,获得金币、抽牌)。每个单元格中存储两个值:在该状态下采取该动作后取得的胜利次数(n),以及该组合被探索的总次数(m)。这些表通过模拟《Citadels》对局进行填充,构成了智能体学习到的模型。
训练过程包括一个强化学习组件:每次模拟对局后,结果更新决策表,影响未来的选择。胜利作为奖励,强化有效动作,增加其再次被选中的概率,而失败则降低这种可能性。因此,经过多次模拟,模型不断适应,平衡探索新策略和利用已验证策略,逐渐收敛到更有效的行为。
4. 结果与讨论
为了评估所提出的MCTS模型的性能,理解基线策略(专家智能体和随机智能体)之间的力量对比至关重要。为此,每个策略都与四个相同的对手进行了10,000轮比赛。
图1中的热力图展示了每种策略(Y轴)针对不同对手(X轴)的表现。这些策略具有不同的优缺点:专家1、2和3在大多数场景中表现良好,而专家4和5的效果则差得多。正如预期,完全随机的策略在面对任何稍有结构的对手时表现都非常差。
图1:策略之间的比较。
下一步是评估MCTS-RL模型。进行了不同的训练会话,每个会话专注于一个对手,每个版本的模型总共进行了100,000场训练比赛。然后,按照相同的先前测试模型,测量每个训练模型对抗所有类型对手的表现,以及对抗随机抽取的多样化对手的表现。
图2中的热图展示了每个模型的综合胜率。最显著的结果是在多样化环境中训练的模型,它表现出一致的性能,在几乎所有测试场景中都优于其他版本的模型。这表明在训练过程中接触多样化的策略对于发展更稳健和通用的游戏能力至关重要。
图2:训练模型之间的比较。
针对被认为最弱的对手专家4和5进行训练的模型,成为了令人惊讶的有效智能体。相反,针对被认为强大的对手专家1和3进行训练,产生的模型整体表现非常差。
对这种对比的一个可能解释是,高级专家策略往往高度专业化,而MCTS-RL模型在训练开始时接近随机行为。面对强大的对手,即使是有潜在优势的行动也可能不足以让模型获得足够多的胜利来识别成功模式;而面对不那么专业的对手,胜利更频繁地发生,有利于学习。尽管如此,这仍然是一个需要确认的假设。
5. 结论
本研究证明了所提出方法的可行性,该方法利用MCTS树的抽象来保留移动之间获得的知识。结果证实,该模型能够为环境开发出稳健的策略。
在多样化环境中训练的智能体表现更优,这表明接触多种策略是构建通用模型的基础。此外,研究指出,最终智能体的质量更多取决于训练对手的多样性,而非其表面强度。
作为未来研究,更精确地探索为何较不专业的策略比更强的策略产生更高效的模型将是有趣的。此外,将所提出的模型与其他MCTS模型进行比较,也有助于更准确地评估该方法。
参考文献
- [1]Browne, C. B. et al. (2012). A survey of Monte Carlo Tree Search methods. IEEE Transactions on Computational Intelligence and AI in Games, 4(1), 1–43.
- [2]Faidutti, B. (2016). Citadels. Deluxe ed. Roseville, MN, USA. Rulebook.
- [3]Powley, E. J.; Cowling, P. I.; Whitehouse, D. (2014). Information capture and reuse strategies in Monte Carlo tree search, with applications to games of hidden information. Artificial Intelligence, 217, 92–116.
- [4]Silver, D. et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484–489.
- [5]Swiechowski, M. et al. (2023). Monte Carlo tree search: a review of recent modifications and applications. Artificial Intelligence Review, 56(3), 2497–2562.
