बोर्ड गेम सिटाडेल में मोंटे कार्लो ट्री सर्च-आधारित मॉडलों के प्रशिक्षण के लिए प्रतिद्वंद्वी मॉडलिंग
Arthur Camilotto, Felipe Grando, João Luis Almeida Santos, Eduardo V. P. Fiorentin, Djonatan R. C. Bonelli
सार
यह कार्य यह जांचता है कि प्रतिद्वंद्वी मॉडलिंग, मल्टीप्लेयर बोर्ड गेम सिटाडेल पर लागू हाइब्रिड MCTS-RL फ्रेमवर्क के प्रशिक्षण को कैसे प्रभावित करती है, जिसमें छिपी हुई जानकारी, कई खिलाड़ी और समय की बाधाएँ होती हैं। यह प्रस्ताव सिमुलेशन से ऑफ़लाइन निर्मित एक स्थायी निर्णय संरचना के माध्यम से योजना और निष्पादन को अलग करता है, जिससे MCTS की ऑनलाइन संगणकीय लागत कम हो जाती है। विशेषज्ञ एजेंटों और एक यादृच्छिक एजेंट वाले एक सिमुलेशन वातावरण में, विभिन्न प्रशिक्षण सत्रों (एक विविध वातावरण सहित) की तुलना जीत दर द्वारा की जाती है। परिणाम बताते हैं कि प्रशिक्षण में रणनीतियों की विविधता, व्यक्तिगत रूप से मजबूत विरोधियों के खिलाफ प्रशिक्षण की तुलना में, एक अधिक मजबूत और सामान्यवादी एजेंट उत्पन्न करती है।
1. परिचय
मोंटे कार्लो ट्री सर्च (MCTS) ने बोर्ड गेम्स में निर्णय लेने के लिए एक प्रभावी तकनीक के रूप में खुद को स्थापित किया है, जो अनुकूलनशीलता और डोमेन-विशिष्ट ज्ञान के कम उपयोग को जोड़ती है। इसकी कार्यक्षमता पूर्ण सूचना वाले निर्धारणात्मक खेलों में उल्लेखनीय है, जैसे कि गो (SILVER et al., 2016)।
हालाँकि, इसका अनुप्रयोग ऐसे वातावरणों में महत्वपूर्ण सीमाओं का सामना करता है जहाँ कई खिलाड़ी, छिपी हुई जानकारी और समय संबंधी प्रतिबंध हों, जहाँ सिमुलेशन की उच्च संगणकीय लागत और अनुकूलन की कठिनाई निर्णयों की प्रतिक्रियाशीलता और गुणवत्ता को प्रभावित करती है (POWLEY et al., 2014).
इस संदर्भ में, MCTS और रिइन्फोर्समेंट लर्निंग (RL) को एकीकृत करने वाले हाइब्रिड दृष्टिकोणों ने योजना चरण को निष्पादन से अलग करने की अनुमति देकर आशाजनक परिणाम दिखाए हैं। खोज को पूर्व में संग्रहीत करके स्थायी निर्णय संरचनाओं का निर्माण, खेल के दौरान क्रियाओं के त्वरित चयन को सक्षम बनाता है, जिससे ऑनलाइन सिमुलेशन की आवश्यकता कम हो जाती है और रणनीतिक गहराई बनी रहती है (ब्राउन, 2012; स्विचोव्स्की, 2023)।
इस शोध में ऑफ़लाइन रिइन्फोर्समेंट लर्निंग तकनीकों के साथ एक हाइब्रिड MCTS मॉडल का परीक्षण और विकास किया गया। इस मॉडल को बोर्ड गेम सिटाडेल (FAIDUTTI, 2016) के सिमुलेशन वातावरण में विभिन्न विरोधियों के साथ प्रशिक्षित और परीक्षण किया गया।
2. सामान्य उद्देश्य
इस शोध का सामान्य उद्देश्य एक हाइब्रिड MCTS-RL फ्रेमवर्क विकसित करना है जो Citadels को केस स्टडी के रूप में उपयोग करते हुए छिपी हुई जानकारी वाले मल्टीप्लेयर बोर्ड गेम्स में कुशलतापूर्वक काम कर सके।
यह प्रस्ताव पारंपरिक MCTS की गणनात्मक बाधाओं को दूर करने के लिए एक स्थायी निर्णय संरचना का ऑफ़लाइन निर्माण करने का प्रयास करता है, जिससे रनटाइम में तेज़ और मजबूत क्रियाएँ संभव होती हैं।
3. कार्यप्रणाली
यह शोध गुणात्मक-मात्रात्मक विश्लेषण के साथ एक अनुप्रयुक्त प्रयोगात्मक अध्ययन के रूप में वर्गीकृत है।
पहले चरण में बोर्ड गेम सिटाडेल के लिए एक डिजिटल सिमुलेशन वातावरण का विकास और अनुकूलन शामिल था। इसके बाद, मानव खिलाड़ियों द्वारा उपयोग की जाने वाली वास्तविक रणनीतियों की नकल करने के लिए बनाई गई अनुकूलित रणनीतियों वाले पाँच विशेषज्ञ एजेंटों का विकास किया गया, और एक बेसलाइन एजेंट का विकास किया गया जो यादृच्छिक रूप से क्रियाएँ चुनता है। पर्यावरण और विकसित एजेंटों के सत्यापन के बाद, हाइब्रिड MCTS-RL फ्रेमवर्क का विकास शुरू हुआ।
MCTS मॉडल, अपनी मूल प्रकृति में, एक ह्यूरिस्टिक खोज एल्गोरिदम है जो कई सिमुलेशनों के निष्पादन के माध्यम से कार्य करता है। इन सिमुलेशनों के दौरान देखी गई प्रत्येक विशिष्ट खेल स्थिति के लिए, एक संबंधित नोड वृक्ष डेटा संरचना में बनाया जाता है। प्रारंभिक खेल स्थिति इस वृक्ष का मूल नोड दर्शाती है।
हालाँकि, पूरे वृक्ष को संग्रहीत करने और भविष्य के निर्णयों के लिए इसे संरक्षित रखने का प्रस्ताव विशाल शाखाकरण कारक के कारण अव्यवहार्य है। इसे संभव बनाने के लिए, वृक्ष का सार निकालना आवश्यक है: खेल की स्थिति को इसकी मूलभूत विशेषताओं (जैसे खिलाड़ी का सोना, हाथ में कार्डों की संख्या) में विभाजित किया जाता है और प्रत्येक विशेषता को एक स्वतंत्र डेटा तालिका में मैप किया जाता है।
इस संरचना में, एक तालिका की पंक्तियाँ किसी राज्य विशेषता के संभावित मानों का प्रतिनिधित्व करती हैं, और स्तंभ एजेंट द्वारा किए जा सकने वाले संभावित कार्यों का प्रतिनिधित्व करते हैं (जैसे, सोना प्राप्त करना, कार्ड खींचना)। प्रत्येक सेल में दो मान संग्रहीत किए जाते हैं: उस स्थिति में उस क्रिया को करने के बाद प्राप्त जीत की संख्या (n), और इस संयोजन का कुल अन्वेषणों की संख्या (m)। जब इन तालिकाओं को सिटाडेल मैचों के सिमुलेशन के माध्यम से भरा जाता है, तो ये एजेंट के सीखे हुए मॉडल को कॉन्फ़िगर करती हैं।
प्रशिक्षण प्रक्रिया में एक सुदृढ़ीकरण अधिगम घटक शामिल है: प्रत्येक सिमुलेटेड मैच के बाद, परिणाम निर्णय तालिकाओं को अपडेट करते हैं, जो भविष्य के विकल्पों को प्रभावित करते हैं। जीतें पुरस्कार के रूप में कार्य करती हैं और प्रभावी क्रियाओं को सुदृढ़ करती हैं, जिससे उन्हें फिर से चुने जाने की संभावना बढ़ जाती है, जबकि हार इस संभावना को कम कर देती है। इस प्रकार, कई सिमुलेशनों के दौरान, मॉडल निरंतर अनुकूलित होता रहता है, नए विकल्पों की खोज और सिद्ध रणनीतियों के शोषण के बीच संतुलन बनाते हुए, धीरे-धीरे अधिक प्रभावी व्यवहारों की ओर अभिसरित होता है।
4. परिणाम और चर्चा
प्रस्तावित MCTS मॉडल के प्रदर्शन का मूल्यांकन करने के लिए, बेसलाइन रणनीतियों (विशेषज्ञ एजेंट और यादृच्छिक एजेंट) के बीच शक्तिगत गतिशीलता को समझना महत्वपूर्ण था। इसे प्राप्त करने के लिए, प्रत्येक को चार समान विरोधियों के खिलाफ 10,000 मैचों के एक दौर से गुज़ारा गया।
चित्र 1 में प्रस्तुत हीटमैप विभिन्न विरोधियों (X-अक्ष) के खिलाफ प्रत्येक रणनीति (Y-अक्ष) के प्रदर्शन को दर्शाता है। रणनीतियों में विशिष्ट ताकतें और कमजोरियाँ हैं: विशेषज्ञ 1, 2, और 3 अधिकांश परिदृश्यों में सक्षम साबित होते हैं, जबकि विशेषज्ञ 4 और 5 काफी कम प्रभावी हैं। जैसा कि अपेक्षित था, पूरी तरह से यादृच्छिक रणनीति किसी भी न्यूनतम रूप से संरचित प्रतिद्वंद्वी के खिलाफ बहुत कम प्रदर्शन करती है।
चित्र 1: रणनीतियों की तुलना।
अगला कदम MCTS-RL मॉडल का मूल्यांकन करना था। विभिन्न प्रशिक्षण सत्र आयोजित किए गए, प्रत्येक सत्र में एक प्रतिद्वंद्वी पर ध्यान केंद्रित किया गया, जिससे मॉडल के प्रत्येक संस्करण के लिए कुल 100,000 प्रशिक्षण मैच हुए। फिर, प्रत्येक प्रशिक्षित मॉडल के प्रदर्शन को उसी पूर्व परीक्षण मॉडल के अनुसार सभी प्रकार के प्रतिद्वंद्वियों के खिलाफ और यादृच्छिक रूप से चुने गए विविध प्रतिद्वंद्वियों के खिलाफ मापा गया।
चित्र 2 में दिखाया गया हीटमैप प्रत्येक मॉडल की समेकित जीत दर प्रस्तुत करता है। सबसे महत्वपूर्ण परिणाम विविध वातावरण में प्रशिक्षित मॉडल का था, जिसने लगभग सभी परीक्षण परिदृश्यों में सुसंगत प्रदर्शन करते हुए मॉडल के अन्य संस्करणों को पीछे छोड़ दिया। यह दर्शाता है कि प्रशिक्षण के दौरान विभिन्न रणनीतियों के संपर्क में आना अधिक मजबूत और सामान्यीकृत खेलने की क्षमता विकसित करने के लिए मौलिक था।
चित्र 2: प्रशिक्षित मॉडलों की तुलना।
विशेषज्ञ 4 और 5 के खिलाफ प्रशिक्षित मॉडल, जिन्हें सबसे कमजोर प्रतिद्वंद्वी माना गया था, आश्चर्यजनक रूप से प्रभावी एजेंट बन गए। इसके विपरीत, विशेषज्ञ 1 और 3 के खिलाफ प्रशिक्षण, जिन्हें मजबूत प्रतिद्वंद्वी माना गया था, ने बहुत खराब समग्र प्रदर्शन वाले मॉडल तैयार किए।
इस विरोधाभास का एक संभावित स्पष्टीकरण यह है कि उन्नत विशेषज्ञ रणनीतियाँ अत्यधिक विशिष्ट होती हैं, जबकि प्रशिक्षण की शुरुआत में MCTS-RL मॉडल यादृच्छिक व्यवहार अपनाता है। मजबूत प्रतिद्वंद्वियों के खिलाफ, संभावित रूप से लाभदायक क्रियाएँ भी पर्याप्त जीत नहीं दिला पातीं, जिससे मॉडल सफलता के पैटर्न पहचान नहीं पाता; जबकि कम विशिष्ट प्रतिद्वंद्वियों के खिलाफ, जीत अधिक बार होती है, जो सीखने में सहायक होती है। फिर भी, यह एक परिकल्पना बनी हुई है जिसकी पुष्टि की आवश्यकता है।
5. निष्कर्ष
इस अध्ययन ने प्रस्तावित दृष्टिकोण की व्यवहार्यता को प्रदर्शित किया, जो चालों के बीच प्राप्त ज्ञान को संरक्षित करने के लिए MCTS वृक्ष के सार का उपयोग करता है। परिणामों ने पुष्टि की कि यह मॉडल पर्यावरण के लिए मजबूत रणनीतियाँ विकसित करने में सक्षम है।
विविध वातावरण में प्रशिक्षित एजेंट का श्रेष्ठ प्रदर्शन यह दर्शाता है कि सामान्यीकृत मॉडल बनाने के लिए कई रणनीतियों का सामना करना मौलिक है। इसके अतिरिक्त, शोध से पता चलता है कि अंतिम एजेंट की गुणवत्ता प्रशिक्षण प्रतिद्वंद्वियों की स्पष्ट ताकत की तुलना में विविधता पर अधिक निर्भर करती है।
भविष्य के अध्ययनों के रूप में, यह और अधिक सटीक रूप से पता लगाना रोचक होगा कि कम विशेषज्ञता वाली रणनीतियों ने मजबूत रणनीतियों की तुलना में अधिक कुशल मॉडल क्यों दिए। इसके अलावा, प्रस्तावित मॉडल की अन्य MCTS मॉडल के साथ तुलना करने से इस दृष्टिकोण का अधिक सटीक मूल्यांकन प्राप्त करने में भी मदद मिलेगी।
संदर्भ
- [1]Browne, C. B. et al. (2012). A survey of Monte Carlo Tree Search methods. IEEE Transactions on Computational Intelligence and AI in Games, 4(1), 1–43.
- [2]Faidutti, B. (2016). Citadels. Deluxe ed. Roseville, MN, USA. Rulebook.
- [3]Powley, E. J.; Cowling, P. I.; Whitehouse, D. (2014). Information capture and reuse strategies in Monte Carlo tree search, with applications to games of hidden information. Artificial Intelligence, 217, 92–116.
- [4]Silver, D. et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484–489.
- [5]Swiechowski, M. et al. (2023). Monte Carlo tree search: a review of recent modifications and applications. Artificial Intelligence Review, 56(3), 2497–2562.
