الكتابة والبحث في هندسة البرمجيات، الذكاء الاصطناعي، الحوسبة، والثقافة الرقمية.
يدرس هذا العمل كيف تؤثر نمذجة الخصوم على تدريب إطار MCTS-RL الهجين المطبَّق على لعبة الطاولة متعددة اللاعبين Citadels، التي تتميز بالمعلومات المخفية وتعدد اللاعبين وقيود الوقت. يفصل المقترح التخطيطَ عن التنفيذ من خلال هيكل قرار دائم مبني في وضع عدم الاتصال من المحاكاة، مما يقلل من التكلفة الحسابية عبر الإنترنت لـ MCTS. في بيئة محاكاة مع عملاء خبراء وعميل عشوائي، تُقارَن جلسات تدريب مختلفة (بما فيها بيئة متنوعة) وفق معدل الفوز. تشير النتائج إلى أن تنوع الاستراتيجيات في التدريب يميل إلى إنتاج عميل أكثر متانة وشمولية مقارنةً بالتدريب ضد خصوم أقوياء بشكل فردي.
تشكّل عملية اتخاذ القرار في الألعاب متعددة اللاعبين ذات قابلية الملاحظة الجزئية تحديات بالغة، نظراً للمعلومات المخفية والعوامل التفرّعية الكبيرة. تقدّم هذه الدراسة إطار بحث دائم في شجرة مونت كارلو (MCTS) مصمَّماً للعمل بكفاءة في مثل هذه البيئات، مستخدِمةً لعبة الطاولة الاستراتيجية Citadels دراسةً تطبيقية. يتمثّل الإسهام الرئيسي في فصل مرحلة بناء الشجرة عن مرحلة التطبيق: إذ تُولَّد أشجار القرار في وضع عدم الاتصال من خلال محاكاة البيئة، وتُخزَّن الإحصاءات ذات الصلة بصيغة جدولية، مما يتيح الاستعلام السريع أثناء التنفيذ دون الحاجة إلى محاكاة إضافية. يُثبت التقييم التجريبي أن التعرّض لمنافسين متنوّعين أثناء التدريب ينتج نماذج ذات استراتيجيات متينة وقابلة للتعميم، قادرة على تحقيق أداء قوي في طيف واسع من سيناريوهات اللعب. وعلى وجه الخصوص، تفوّقت النماذج المدرَّبة في بيئة حيث كان اختيار المنافسين عشوائياً باستمرار على تلك المدرَّبة ضد نوع منافس واحد، وأظهرت أداءً مستقراً عبر جولات التدريب المختلفة. تؤكد هذه النتائج فاعلية دمج MCTS مع التخزين الدائم للمعرفة لإنتاج عملاء سريعين وموثوقين وقابلين للتكيّف في المجالات المعقدة.