जटिल वातावरणों में काम करने वाले एजेंटों के लिए स्थायी मोंटे कार्लो ट्री सर्च: सिटाडेल पर एक केस स्टडी
Andrei Carlesso Camilotto, Djonatan Riquelme Clein Bonelli, Eduardo Vinicius Perissinotto Fiorentin, João Luís Almeida Santos, Felipe Grando
सार
मल्टीप्लेयर, आंशिक रूप से अवलोकनीय खेलों में निर्णय-निर्माण छिपी हुई जानकारी और बड़े शाखाकरण कारकों के कारण महत्वपूर्ण चुनौतियाँ प्रस्तुत करता है। यह अध्ययन ऐसे वातावरणों में कुशलतापूर्वक संचालित होने के लिए डिज़ाइन किए गए एक स्थायी मोंटे कार्लो ट्री सर्च (MCTS) फ्रेमवर्क को पेश करता है, जिसमें रणनीतिक बोर्ड गेम सिटाडेल को एक केस स्टडी के रूप में उपयोग किया गया है। मुख्य योगदान ट्री निर्माण चरण को एप्लिकेशन चरण से अलग करना है: निर्णय वृक्ष पर्यावरण सिमुलेशन के माध्यम से ऑफ़लाइन उत्पन्न किए जाते हैं, और प्रासंगिक सांख्यिकी सारणीबद्ध रूप में संग्रहीत की जाती हैं, जिससे अतिरिक्त सिमुलेशन की आवश्यकता के बिना निष्पादन के दौरान त्वरित पूछताछ संभव हो पाती है। प्रयोगात्मक मूल्यांकन से यह प्रदर्शित होता है कि प्रशिक्षण के दौरान विविध विरोधियों के संपर्क में आने से ऐसे मॉडल बनते हैं जिनमें मजबूत और सामान्यीकरण योग्य रणनीतियाँ होती हैं, जो खेल के विभिन्न परिदृश्यों में मजबूत प्रदर्शन करने में सक्षम हैं। विशेष रूप से, ऐसे वातावरण में प्रशिक्षित मॉडल जहाँ विरोधियों को यादृच्छिक रूप से चुना गया था, ने एकल प्रतिद्वंद्वी प्रकारों के खिलाफ प्रशिक्षित मॉडलों से लगातार बेहतर प्रदर्शन किया और प्रशिक्षण रन के दौरान स्थिर प्रदर्शन प्रदर्शित किया। ये निष्कर्ष जटिल क्षेत्रों में तेज़, विश्वसनीय और अनुकूलनीय एजेंट बनाने के लिए MCTS को स्थायी ज्ञान भंडारण के साथ संयोजित करने की प्रभावशीलता को रेखांकित करते हैं।
