Recherche Arborescente de Monte Carlo Persistante pour des Agents Opérant dans des Environnements Complexes : Une Étude de Cas sur Citadels
Andrei Carlesso Camilotto, Djonatan Riquelme Clein Bonelli, Eduardo Vinicius Perissinotto Fiorentin, João Luís Almeida Santos, Felipe Grando
Résumé
La prise de décision dans des jeux multijoueurs à observabilité partielle pose des défis significatifs en raison des informations cachées et des facteurs de branchement élevés. Cette étude présente un framework de Recherche Arborescente de Monte Carlo (MCTS) persistant, conçu pour fonctionner efficacement dans de tels environnements, en utilisant le jeu de société stratégique Citadels comme étude de cas. La contribution principale est le découplage entre la phase de construction de l'arbre et la phase d'application : les arbres de décision sont générés hors ligne par des simulations de l'environnement, et les statistiques pertinentes sont stockées sous forme tabulaire, permettant des requêtes rapides lors de l'exécution sans nécessiter de simulations supplémentaires. L'évaluation expérimentale démontre que l'exposition à des adversaires variés pendant l'entraînement produit des modèles avec des stratégies robustes et généralisables, capables d'obtenir de bonnes performances dans un large éventail de scénarios de jeu. En particulier, les modèles entraînés dans un environnement où les adversaires étaient échantillonnés de manière stochastique ont systématiquement surpassé ceux entraînés contre un seul type d'adversaire et ont montré des performances stables entre les séances d'entraînement. Ces résultats soulignent l'efficacité de combiner MCTS avec un stockage persistant des connaissances pour produire des agents rapides, fiables et adaptables dans des domaines complexes.
