कृत्रिम बुद्धिमत्ता

बोर्ड गेम सिटाडेल में मोंटे कार्लो ट्री सर्च-आधारित मॉडलों के प्रशिक्षण के लिए प्रतिद्वंद्वी मॉडलिंग

Arthur Camilotto, Felipe Grando, João Luis Almeida Santos, Eduardo V. P. Fiorentin, Djonatan R. C. Bonelli

November 2025Universidade Federal da Fronteira Sul (UFFS)XV Jornada de Iniciação Científica e Tecnológica — UFFS, Chapecó, 2025

प्रकाशन देखें

सार

यह कार्य यह जांचता है कि प्रतिद्वंद्वी मॉडलिंग, मल्टीप्लेयर बोर्ड गेम सिटाडेल पर लागू हाइब्रिड MCTS-RL फ्रेमवर्क के प्रशिक्षण को कैसे प्रभावित करती है, जिसमें छिपी हुई जानकारी, कई खिलाड़ी और समय की बाधाएँ होती हैं। यह प्रस्ताव सिमुलेशन से ऑफ़लाइन निर्मित एक स्थायी निर्णय संरचना के माध्यम से योजना और निष्पादन को अलग करता है, जिससे MCTS की ऑनलाइन संगणकीय लागत कम हो जाती है। विशेषज्ञ एजेंटों और एक यादृच्छिक एजेंट वाले एक सिमुलेशन वातावरण में, विभिन्न प्रशिक्षण सत्रों (एक विविध वातावरण सहित) की तुलना जीत दर द्वारा की जाती है। परिणाम बताते हैं कि प्रशिक्षण में रणनीतियों की विविधता, व्यक्तिगत रूप से मजबूत विरोधियों के खिलाफ प्रशिक्षण की तुलना में, एक अधिक मजबूत और सामान्यवादी एजेंट उत्पन्न करती है।

कीवर्ड्स:मोंटे कार्लो ट्री सर्चसुदृढ़ीकरण शिक्षणप्रतिद्वंद्वी मॉडलिंगएजेंट्सबोर्ड गेम्सकिला

1. परिचय

मोंटे कार्लो ट्री सर्च (MCTS) ने बोर्ड गेम्स में निर्णय लेने के लिए एक प्रभावी तकनीक के रूप में खुद को स्थापित किया है, जो अनुकूलनशीलता और डोमेन-विशिष्ट ज्ञान के कम उपयोग को जोड़ती है। इसकी कार्यक्षमता पूर्ण सूचना वाले निर्धारणात्मक खेलों में उल्लेखनीय है, जैसे कि गो (SILVER et al., 2016)।

हालाँकि, इसका अनुप्रयोग ऐसे वातावरणों में महत्वपूर्ण सीमाओं का सामना करता है जहाँ कई खिलाड़ी, छिपी हुई जानकारी और समय संबंधी प्रतिबंध हों, जहाँ सिमुलेशन की उच्च संगणकीय लागत और अनुकूलन की कठिनाई निर्णयों की प्रतिक्रियाशीलता और गुणवत्ता को प्रभावित करती है (POWLEY et al., 2014).

इस संदर्भ में, MCTS और रिइन्फोर्समेंट लर्निंग (RL) को एकीकृत करने वाले हाइब्रिड दृष्टिकोणों ने योजना चरण को निष्पादन से अलग करने की अनुमति देकर आशाजनक परिणाम दिखाए हैं। खोज को पूर्व में संग्रहीत करके स्थायी निर्णय संरचनाओं का निर्माण, खेल के दौरान क्रियाओं के त्वरित चयन को सक्षम बनाता है, जिससे ऑनलाइन सिमुलेशन की आवश्यकता कम हो जाती है और रणनीतिक गहराई बनी रहती है (ब्राउन, 2012; स्विचोव्स्की, 2023)।

इस शोध में ऑफ़लाइन रिइन्फोर्समेंट लर्निंग तकनीकों के साथ एक हाइब्रिड MCTS मॉडल का परीक्षण और विकास किया गया। इस मॉडल को बोर्ड गेम सिटाडेल (FAIDUTTI, 2016) के सिमुलेशन वातावरण में विभिन्न विरोधियों के साथ प्रशिक्षित और परीक्षण किया गया।

2. सामान्य उद्देश्य

इस शोध का सामान्य उद्देश्य एक हाइब्रिड MCTS-RL फ्रेमवर्क विकसित करना है जो Citadels को केस स्टडी के रूप में उपयोग करते हुए छिपी हुई जानकारी वाले मल्टीप्लेयर बोर्ड गेम्स में कुशलतापूर्वक काम कर सके।

यह प्रस्ताव पारंपरिक MCTS की गणनात्मक बाधाओं को दूर करने के लिए एक स्थायी निर्णय संरचना का ऑफ़लाइन निर्माण करने का प्रयास करता है, जिससे रनटाइम में तेज़ और मजबूत क्रियाएँ संभव होती हैं।

3. कार्यप्रणाली

यह शोध गुणात्मक-मात्रात्मक विश्लेषण के साथ एक अनुप्रयुक्त प्रयोगात्मक अध्ययन के रूप में वर्गीकृत है।

पहले चरण में बोर्ड गेम सिटाडेल के लिए एक डिजिटल सिमुलेशन वातावरण का विकास और अनुकूलन शामिल था। इसके बाद, मानव खिलाड़ियों द्वारा उपयोग की जाने वाली वास्तविक रणनीतियों की नकल करने के लिए बनाई गई अनुकूलित रणनीतियों वाले पाँच विशेषज्ञ एजेंटों का विकास किया गया, और एक बेसलाइन एजेंट का विकास किया गया जो यादृच्छिक रूप से क्रियाएँ चुनता है। पर्यावरण और विकसित एजेंटों के सत्यापन के बाद, हाइब्रिड MCTS-RL फ्रेमवर्क का विकास शुरू हुआ।

MCTS मॉडल, अपनी मूल प्रकृति में, एक ह्यूरिस्टिक खोज एल्गोरिदम है जो कई सिमुलेशनों के निष्पादन के माध्यम से कार्य करता है। इन सिमुलेशनों के दौरान देखी गई प्रत्येक विशिष्ट खेल स्थिति के लिए, एक संबंधित नोड वृक्ष डेटा संरचना में बनाया जाता है। प्रारंभिक खेल स्थिति इस वृक्ष का मूल नोड दर्शाती है।

हालाँकि, पूरे वृक्ष को संग्रहीत करने और भविष्य के निर्णयों के लिए इसे संरक्षित रखने का प्रस्ताव विशाल शाखाकरण कारक के कारण अव्यवहार्य है। इसे संभव बनाने के लिए, वृक्ष का सार निकालना आवश्यक है: खेल की स्थिति को इसकी मूलभूत विशेषताओं (जैसे खिलाड़ी का सोना, हाथ में कार्डों की संख्या) में विभाजित किया जाता है और प्रत्येक विशेषता को एक स्वतंत्र डेटा तालिका में मैप किया जाता है।

इस संरचना में, एक तालिका की पंक्तियाँ किसी राज्य विशेषता के संभावित मानों का प्रतिनिधित्व करती हैं, और स्तंभ एजेंट द्वारा किए जा सकने वाले संभावित कार्यों का प्रतिनिधित्व करते हैं (जैसे, सोना प्राप्त करना, कार्ड खींचना)। प्रत्येक सेल में दो मान संग्रहीत किए जाते हैं: उस स्थिति में उस क्रिया को करने के बाद प्राप्त जीत की संख्या (n), और इस संयोजन का कुल अन्वेषणों की संख्या (m)। जब इन तालिकाओं को सिटाडेल मैचों के सिमुलेशन के माध्यम से भरा जाता है, तो ये एजेंट के सीखे हुए मॉडल को कॉन्फ़िगर करती हैं।

प्रशिक्षण प्रक्रिया में एक सुदृढ़ीकरण अधिगम घटक शामिल है: प्रत्येक सिमुलेटेड मैच के बाद, परिणाम निर्णय तालिकाओं को अपडेट करते हैं, जो भविष्य के विकल्पों को प्रभावित करते हैं। जीतें पुरस्कार के रूप में कार्य करती हैं और प्रभावी क्रियाओं को सुदृढ़ करती हैं, जिससे उन्हें फिर से चुने जाने की संभावना बढ़ जाती है, जबकि हार इस संभावना को कम कर देती है। इस प्रकार, कई सिमुलेशनों के दौरान, मॉडल निरंतर अनुकूलित होता रहता है, नए विकल्पों की खोज और सिद्ध रणनीतियों के शोषण के बीच संतुलन बनाते हुए, धीरे-धीरे अधिक प्रभावी व्यवहारों की ओर अभिसरित होता है।

4. परिणाम और चर्चा

प्रस्तावित MCTS मॉडल के प्रदर्शन का मूल्यांकन करने के लिए, बेसलाइन रणनीतियों (विशेषज्ञ एजेंट और यादृच्छिक एजेंट) के बीच शक्तिगत गतिशीलता को समझना महत्वपूर्ण था। इसे प्राप्त करने के लिए, प्रत्येक को चार समान विरोधियों के खिलाफ 10,000 मैचों के एक दौर से गुज़ारा गया।

चित्र 1 में प्रस्तुत हीटमैप विभिन्न विरोधियों (X-अक्ष) के खिलाफ प्रत्येक रणनीति (Y-अक्ष) के प्रदर्शन को दर्शाता है। रणनीतियों में विशिष्ट ताकतें और कमजोरियाँ हैं: विशेषज्ञ 1, 2, और 3 अधिकांश परिदृश्यों में सक्षम साबित होते हैं, जबकि विशेषज्ञ 4 और 5 काफी कम प्रभावी हैं। जैसा कि अपेक्षित था, पूरी तरह से यादृच्छिक रणनीति किसी भी न्यूनतम रूप से संरचित प्रतिद्वंद्वी के खिलाफ बहुत कम प्रदर्शन करती है।

चित्र 1: रणनीतियों की तुलना।

अगला कदम MCTS-RL मॉडल का मूल्यांकन करना था। विभिन्न प्रशिक्षण सत्र आयोजित किए गए, प्रत्येक सत्र में एक प्रतिद्वंद्वी पर ध्यान केंद्रित किया गया, जिससे मॉडल के प्रत्येक संस्करण के लिए कुल 100,000 प्रशिक्षण मैच हुए। फिर, प्रत्येक प्रशिक्षित मॉडल के प्रदर्शन को उसी पूर्व परीक्षण मॉडल के अनुसार सभी प्रकार के प्रतिद्वंद्वियों के खिलाफ और यादृच्छिक रूप से चुने गए विविध प्रतिद्वंद्वियों के खिलाफ मापा गया।

चित्र 2 में दिखाया गया हीटमैप प्रत्येक मॉडल की समेकित जीत दर प्रस्तुत करता है। सबसे महत्वपूर्ण परिणाम विविध वातावरण में प्रशिक्षित मॉडल का था, जिसने लगभग सभी परीक्षण परिदृश्यों में सुसंगत प्रदर्शन करते हुए मॉडल के अन्य संस्करणों को पीछे छोड़ दिया। यह दर्शाता है कि प्रशिक्षण के दौरान विभिन्न रणनीतियों के संपर्क में आना अधिक मजबूत और सामान्यीकृत खेलने की क्षमता विकसित करने के लिए मौलिक था।

चित्र 2: प्रशिक्षित मॉडलों की तुलना।

विशेषज्ञ 4 और 5 के खिलाफ प्रशिक्षित मॉडल, जिन्हें सबसे कमजोर प्रतिद्वंद्वी माना गया था, आश्चर्यजनक रूप से प्रभावी एजेंट बन गए। इसके विपरीत, विशेषज्ञ 1 और 3 के खिलाफ प्रशिक्षण, जिन्हें मजबूत प्रतिद्वंद्वी माना गया था, ने बहुत खराब समग्र प्रदर्शन वाले मॉडल तैयार किए।

इस विरोधाभास का एक संभावित स्पष्टीकरण यह है कि उन्नत विशेषज्ञ रणनीतियाँ अत्यधिक विशिष्ट होती हैं, जबकि प्रशिक्षण की शुरुआत में MCTS-RL मॉडल यादृच्छिक व्यवहार अपनाता है। मजबूत प्रतिद्वंद्वियों के खिलाफ, संभावित रूप से लाभदायक क्रियाएँ भी पर्याप्त जीत नहीं दिला पातीं, जिससे मॉडल सफलता के पैटर्न पहचान नहीं पाता; जबकि कम विशिष्ट प्रतिद्वंद्वियों के खिलाफ, जीत अधिक बार होती है, जो सीखने में सहायक होती है। फिर भी, यह एक परिकल्पना बनी हुई है जिसकी पुष्टि की आवश्यकता है।

5. निष्कर्ष

इस अध्ययन ने प्रस्तावित दृष्टिकोण की व्यवहार्यता को प्रदर्शित किया, जो चालों के बीच प्राप्त ज्ञान को संरक्षित करने के लिए MCTS वृक्ष के सार का उपयोग करता है। परिणामों ने पुष्टि की कि यह मॉडल पर्यावरण के लिए मजबूत रणनीतियाँ विकसित करने में सक्षम है।

विविध वातावरण में प्रशिक्षित एजेंट का श्रेष्ठ प्रदर्शन यह दर्शाता है कि सामान्यीकृत मॉडल बनाने के लिए कई रणनीतियों का सामना करना मौलिक है। इसके अतिरिक्त, शोध से पता चलता है कि अंतिम एजेंट की गुणवत्ता प्रशिक्षण प्रतिद्वंद्वियों की स्पष्ट ताकत की तुलना में विविधता पर अधिक निर्भर करती है।

भविष्य के अध्ययनों के रूप में, यह और अधिक सटीक रूप से पता लगाना रोचक होगा कि कम विशेषज्ञता वाली रणनीतियों ने मजबूत रणनीतियों की तुलना में अधिक कुशल मॉडल क्यों दिए। इसके अलावा, प्रस्तावित मॉडल की अन्य MCTS मॉडल के साथ तुलना करने से इस दृष्टिकोण का अधिक सटीक मूल्यांकन प्राप्त करने में भी मदद मिलेगी।

संदर्भ

सभी लेख पाठ्यक्रम