अनुसंधान और लेखन

अकादमी

सॉफ़्टवेयर इंजीनियरिंग, एआई, कंप्यूटिंग और डिजिटल संस्कृति पर लेखन और अनुसंधान।

सम्मेलन पत्र

कृत्रिम बुद्धिमत्ता · November 2025

बोर्ड गेम सिटाडेल में मोंटे कार्लो ट्री सर्च-आधारित मॉडलों के प्रशिक्षण के लिए प्रतिद्वंद्वी मॉडलिंग

यह कार्य यह जांचता है कि प्रतिद्वंद्वी मॉडलिंग, मल्टीप्लेयर बोर्ड गेम सिटाडेल पर लागू हाइब्रिड MCTS-RL फ्रेमवर्क के प्रशिक्षण को कैसे प्रभावित करती है, जिसमें छिपी हुई जानकारी, कई खिलाड़ी और समय की बाधाएँ होती हैं। यह प्रस्ताव सिमुलेशन से ऑफ़लाइन निर्मित एक स्थायी निर्णय संरचना के माध्यम से योजना और निष्पादन को अलग करता है, जिससे MCTS की ऑनलाइन संगणकीय लागत कम हो जाती है। विशेषज्ञ एजेंटों और एक यादृच्छिक एजेंट वाले एक सिमुलेशन वातावरण में, विभिन्न प्रशिक्षण सत्रों (एक विविध वातावरण सहित) की तुलना जीत दर द्वारा की जाती है। परिणाम बताते हैं कि प्रशिक्षण में रणनीतियों की विविधता, व्यक्तिगत रूप से मजबूत विरोधियों के खिलाफ प्रशिक्षण की तुलना में, एक अधिक मजबूत और सामान्यवादी एजेंट उत्पन्न करती है।

शोधप्रबंध और मोनोग्राफ

कृत्रिम बुद्धिमत्ता · 2025

जटिल वातावरणों में काम करने वाले एजेंटों के लिए स्थायी मोंटे कार्लो ट्री सर्च: सिटाडेल पर एक केस स्टडी

मल्टीप्लेयर, आंशिक रूप से अवलोकनीय खेलों में निर्णय-निर्माण छिपी हुई जानकारी और बड़े शाखाकरण कारकों के कारण महत्वपूर्ण चुनौतियाँ प्रस्तुत करता है। यह अध्ययन ऐसे वातावरणों में कुशलतापूर्वक संचालित होने के लिए डिज़ाइन किए गए एक स्थायी मोंटे कार्लो ट्री सर्च (MCTS) फ्रेमवर्क को पेश करता है, जिसमें रणनीतिक बोर्ड गेम सिटाडेल को एक केस स्टडी के रूप में उपयोग किया गया है। मुख्य योगदान ट्री निर्माण चरण को एप्लिकेशन चरण से अलग करना है: निर्णय वृक्ष पर्यावरण सिमुलेशन के माध्यम से ऑफ़लाइन उत्पन्न किए जाते हैं, और प्रासंगिक सांख्यिकी सारणीबद्ध रूप में संग्रहीत की जाती हैं, जिससे अतिरिक्त सिमुलेशन की आवश्यकता के बिना निष्पादन के दौरान त्वरित पूछताछ संभव हो पाती है। प्रयोगात्मक मूल्यांकन से यह प्रदर्शित होता है कि प्रशिक्षण के दौरान विविध विरोधियों के संपर्क में आने से ऐसे मॉडल बनते हैं जिनमें मजबूत और सामान्यीकरण योग्य रणनीतियाँ होती हैं, जो खेल के विभिन्न परिदृश्यों में मजबूत प्रदर्शन करने में सक्षम हैं। विशेष रूप से, ऐसे वातावरण में प्रशिक्षित मॉडल जहाँ विरोधियों को यादृच्छिक रूप से चुना गया था, ने एकल प्रतिद्वंद्वी प्रकारों के खिलाफ प्रशिक्षित मॉडलों से लगातार बेहतर प्रदर्शन किया और प्रशिक्षण रन के दौरान स्थिर प्रदर्शन प्रदर्शित किया। ये निष्कर्ष जटिल क्षेत्रों में तेज़, विश्वसनीय और अनुकूलनीय एजेंट बनाने के लिए MCTS को स्थायी ज्ञान भंडारण के साथ संयोजित करने की प्रभावशीलता को रेखांकित करते हैं।