ソフトウェア工学、AI、コンピューティング、デジタル文化に関する執筆と研究。
本研究では、隠れた情報、複数のプレイヤー、時間制約を特徴とする多人数ボードゲーム「シタデル(Citadels)」に適用された混合MCTS-RLフレームワークの訓練に対戦相手モデリングがどのように影響するかを調査する。提案手法は、シミュレーションからオフラインで構築された持続的な意思決定構造を通じて計画と実行を分離し、MCTSのオンライン計算コストを削減する。専門エージェントとランダムエージェントを含むシミュレーション環境において、異なる訓練セッション(多様な環境を含む)を勝率で比較する。結果は、訓練における戦略の多様性が、個々に強い対戦相手に対する訓練よりも、より堅牢で汎用的なエージェントを生成する傾向があることを示している。
部分観測可能なマルチプレイヤーゲームにおける意思決定は、隠れた情報と大きな分岐因子により重大な課題をもたらす。本研究では、このような環境で効率的に動作するよう設計された永続的モンテカルロ木探索(MCTS)フレームワークを提案し、戦略的ボードゲーム「シタデル(Citadels)」を事例として使用する。主な貢献は、木構築フェーズと適用フェーズの分離にある:決策木は環境シミュレーションを通じてオフラインで生成され、関連統計は表形式で保存されるため、追加シミュレーションなしに実行中の高速クエリが可能となる。実験的評価により、訓練中に多様な対戦相手に接することで、幅広いゲームシナリオで高いパフォーマンスを発揮できるロバストで汎化可能な戦略を持つモデルが生成されることが示された。特に、対戦相手が確率的にサンプリングされる環境で訓練されたモデルは、単一の対戦相手タイプに対して訓練されたモデルを一貫して上回り、訓練実行間で安定したパフォーマンスを示した。これらの知見は、MCTSと永続的知識ストレージを組み合わせることで、複雑な領域において高速、信頼性が高く、適応可能なエージェントを生成する効果を裏付けている。