关于软件工程、人工智能、计算和数字文化的写作与研究。
本文研究了对手建模如何影响混合MCTS-RL框架的训练,该框架应用于具有隐藏信息、多名玩家和时间限制的多人棋盘游戏《城堡风云》。该方案通过离线从模拟中构建的持久决策结构将规划与执行解耦,从而降低MCTS的在线计算成本。在一个包含专家智能体和随机智能体的模拟环境中,通过胜率比较不同的训练会话(包括多样化环境)。结果表明,训练中策略的多样性往往能产生比针对单个强对手训练更鲁棒、更通用的智能体。
在具有部分可观测性的多人游戏中进行决策面临重大挑战,原因在于隐藏信息和较大的分支因子。本研究提出了一种持久蒙特卡洛树搜索(MCTS)框架,专为在此类环境中高效运行而设计,以策略性桌游《城堡风云》(Citadels)为案例研究。核心贡献在于将树构建阶段与应用阶段解耦:决策树通过环境模拟离线生成,相关统计数据以表格形式存储,从而在执行过程中无需额外模拟即可实现快速查询。实验评估表明,训练期间接触多样化对手能够产生具有鲁棒且可泛化策略的模型,能够在各种游戏场景中表现出色。特别是,在对手随机采样环境中训练的模型持续优于针对单一对手类型训练的模型,并在训练运行间表现稳定。这些发现强调了将MCTS与持久知识存储相结合,在复杂领域中产生快速、可靠且自适应智能体的有效性。