الذكاء الاصطناعي

نمذجة الخصوم لتدريب نماذج قائمة على بحث مونت كارلو في الأشجار في لعبة سيتادلس

Arthur Camilotto, Felipe Grando, João Luis Almeida Santos, Eduardo V. P. Fiorentin, Djonatan R. C. Bonelli

November 2025Universidade Federal da Fronteira Sul (UFFS)XV Jornada de Iniciação Científica e Tecnológica — UFFS, Chapecó, 2025
عرض المنشور

ملخص

يدرس هذا العمل كيف تؤثر نمذجة الخصوم على تدريب إطار MCTS-RL الهجين المطبَّق على لعبة الطاولة متعددة اللاعبين Citadels، التي تتميز بالمعلومات المخفية وتعدد اللاعبين وقيود الوقت. يفصل المقترح التخطيطَ عن التنفيذ من خلال هيكل قرار دائم مبني في وضع عدم الاتصال من المحاكاة، مما يقلل من التكلفة الحسابية عبر الإنترنت لـ MCTS. في بيئة محاكاة مع عملاء خبراء وعميل عشوائي، تُقارَن جلسات تدريب مختلفة (بما فيها بيئة متنوعة) وفق معدل الفوز. تشير النتائج إلى أن تنوع الاستراتيجيات في التدريب يميل إلى إنتاج عميل أكثر متانة وشمولية مقارنةً بالتدريب ضد خصوم أقوياء بشكل فردي.

الكلمات المفتاحية:بحث مونت كارلو في الأشجارالتعلم المعززنمذجة الخصومالوكلاءألعاب الطاولةCitadels

1. مقدمة

عززت بحث شجرة مونت كارلو (MCTS) مكانتها كتقنية فعالة لاتخاذ القرارات في ألعاب الطاولة، حيث تجمع بين القدرة على التكيف والاستخدام المنخفض للمعرفة الخاصة بالمجال. أداؤها ملحوظ في الألعاب الحتمية ذات المعلومات الكاملة، مثل لعبة غو (SILVER et al., 2016).

ومع ذلك، يواجه تطبيقها قيودًا كبيرة في البيئات التي تضم لاعبين متعددين، ومعلومات مخفية، وقيود زمنية، حيث أن التكلفة الحسابية العالية للمحاكاة وصعوبة التكيف تؤثر سلبًا على استجابة وجودة القرارات (POWLEY et al., 2014).

في هذا السياق، أظهرت الأساليب الهجينة التي تدمج MCTS مع التعلم المعزز (RL) وعدًا من خلال فصل مرحلة التخطيط عن التنفيذ. بناء هياكل قرار دائمة، مع تخزين مسبق للبحث، يتيح اختيار الإجراءات الفوري أثناء اللعبة، مما يقلل الحاجة إلى المحاكاة عبر الإنترنت ويحافظ على العمق الاستراتيجي (BROWNE, 2012; SWIECHOWSKI, 2023).

في هذا البحث، تم اختبار وتطوير نموذج MCTS هجين مع تقنيات التعلم المعزز غير المتصل. تم تدريب النموذج واختباره باستخدام خصوم مختلفين في بيئة محاكاة للعبة اللوحة سيتاديلز (FAIDUTTI, 2016).

2. الهدف العام

الهدف العام لهذا البحث هو تطوير إطار عمل هجين MCTS-RL قادر على العمل بكفاءة في ألعاب اللوحة متعددة اللاعبين ذات المعلومات المخفية، باستخدام سيتاديلز كدراسة حالة.

يسعى الاقتراح إلى إزالة الاختناقات الحسابية لـ MCTS التقليدي من خلال البناء غير المتصل لهيكل قرار دائم، مما يسمح بإجراءات سريعة وقوية في وقت التشغيل.

3. المنهجية

تتميز هذه الدراسة بأنها دراسة تجريبية تطبيقية مع تحليل كمي-نوعي.

تضمنت المرحلة الأولى تطوير وتكييف بيئة محاكاة رقمية للعبة اللوحة Citadels. تبع ذلك تطوير خمسة وكلاء خبراء باستراتيجيات مخصصة، تم بناؤها لمحاكاة الاستراتيجيات الحقيقية التي يستخدمها اللاعبون البشريون، وتطوير وكيل أساسي يختار الإجراءات بشكل عشوائي. بعد التحقق من صحة البيئة والوكلاء المطورين، بدأ تطوير إطار عمل MCTS-RL الهجين.

نموذج MCTS هو، في جوهره، خوارزمية بحث استدلالية تعمل من خلال تنفيذ محاكاة متعددة. لكل حالة لعبة مميزة يتم زيارتها خلال هذه المحاكاة، يتم إنشاء عقدة مقابلة في هيكل بيانات شجري. تمثل حالة اللعبة الأولية العقدة الجذرية لهذه الشجرة.

ومع ذلك، فإن اقتراح تخزين الشجرة بأكملها والحفاظ عليها للقرارات المستقبلية غير قابل للتطبيق بسبب عامل التفرع الضخم. لجعل ذلك ممكنًا، من الضروري تجريد الشجرة: يتم تقسيم حالة اللعبة إلى خصائصها الأساسية (مثل ذهب اللاعب، عدد البطاقات في اليد) ويتم تعيين كل خاصية إلى جدول بيانات مستقل.

في هذا الهيكل، تمثل صفوف الجدول القيم المحتملة لخاصية الحالة، وتمثل الأعمدة الإجراءات المحتملة التي يمكن للوكيل اتخاذها (مثل كسب الذهب، سحب البطاقات). يتم تخزين قيمتين في كل خلية: عدد الانتصارات المحققة (n) بعد اتخاذ ذلك الإجراء في تلك الحالة، وإجمالي عدد المرات التي تم فيها استكشاف هذا المزيج (m). تشكل هذه الجداول، عند ملئها من خلال محاكاة مباريات القلاع، النموذج المتعلم للوكيل.

تتضمن عملية التدريب مكون تعلم معزز: بعد كل مباراة محاكاة، تقوم النتائج بتحديث جداول القرار، مما يؤثر على الخيارات المستقبلية. تعمل الانتصارات كمكافآت وتعزز الإجراءات الفعالة، مما يزيد من احتمالية اختيارها مرة أخرى، بينما تقلل الهزائم من هذه الإمكانية. وهكذا، عبر العديد من المحاكاة، يتكيف النموذج باستمرار، موازنًا بين استكشاف بدائل جديدة واستغلال الاستراتيجيات المثبتة، ويتقارب تدريجيًا نحو سلوكيات أكثر فعالية.

4. النتائج والمناقشة

لتقييم أداء نموذج MCTS المقترح، كان من الضروري فهم ديناميكيات القوة بين الاستراتيجيات الأساسية (العوامل الخبيرة والعامل العشوائي). لتحقيق ذلك، خضعت كل منها لجولة من 10,000 مباراة ضد أربعة خصوم متطابقين.

يوضح مخطط الحرارة في الشكل 1 أداء كل استراتيجية (المحور Y) ضد الخصوم المختلفين (المحور X). تمتلك الاستراتيجيات نقاط قوة وضعف مميزة: الخبراء 1 و2 و3 أثبتوا كفاءتهم في معظم السيناريوهات، بينما الخبراء 4 و5 أقل فعالية بشكل ملحوظ. كما هو متوقع، تظهر الاستراتيجية العشوائية تمامًا أداءً منخفضًا جدًا ضد أي خصم منظم بشكل بسيط.

الشكل 1: مقارنة بين الاستراتيجيات.

كانت الخطوة التالية هي تقييم نموذج MCTS-RL. تم إجراء جلسات تدريب مختلفة، كل منها يركز على أحد الخصوم، بإجمالي 100,000 مباراة تدريب لكل نسخة من النموذج. ثم تم قياس أداء كل نموذج مدرب ضد جميع أنواع الخصوم باتباع نفس نموذج الاختبار السابق، وضد خصوم متنوعين تم اختيارهم عشوائياً.

يقدم خريطة الحرارة الموضحة في الشكل 2 معدل الفوز المجمع لكل نموذج. كانت النتيجة الأكثر أهمية هي تلك الخاصة بالنموذج المدرب في البيئة المتنوعة، والذي حقق أداءً ثابتًا، متفوقًا على النسخ الأخرى من النموذج في جميع سيناريوهات الاختبار تقريبًا. يشير هذا إلى أن التعرض لمجموعة متنوعة من الاستراتيجيات أثناء التدريب كان أساسيًا لتطوير قدرة لعب أكثر قوة وعمومية.

الشكل 2: مقارنة بين النماذج المدربة.

النماذج المدربة ضد الخبراء 4 و5، الذين يُعتبرون أضعف الخصوم، أصبحت عوامل فعالة بشكل مفاجئ. على العكس، التدريب ضد الخبراء 1 و3، الذين يُعتبرون خصومًا أقوياء، أنتج نماذج ذات أداء عام ضعيف جدًا.

تفسير محتمل لهذا التباين هو أن استراتيجيات الخبراء المتقدمة تميل إلى أن تكون متخصصة للغاية، بينما نموذج MCTS-RL في بداية التدريب يقترب من السلوك العشوائي. ضد الخصوم الأقوياء، حتى الإجراءات التي قد تكون مفيدة قد لا تؤدي إلى انتصارات كافية للنموذج ليتعرف على أنماط النجاح؛ بينما ضد الخصوم الأقل تخصصًا، تحدث الانتصارات بشكل متكرر، مما يفضل التعلم. ومع ذلك، لا تزال هذه فرضية تتطلب تأكيدًا.

5. الخاتمة

أثبتت هذه الدراسة جدوى النهج المقترح، الذي يستخدم تجريدًا لشجرة MCTS للحفاظ على المعرفة المكتسبة بين الحركات. أكدت النتائج أن النموذج قادر على تطوير استراتيجيات قوية للبيئة.

الأداء المتفوق للوكيل المُدرَّب في البيئة المتنوعة يُظهر أن التعرض لتكتيكات متعددة أساسي لبناء نموذج عام. بالإضافة إلى ذلك، يشير البحث إلى أن جودة الوكيل النهائي تعتمد على التنوع أكثر من اعتمادها على القوة الظاهرية للخصوم المُدرِّبين.

كدراسات مستقبلية، سيكون من المثير استكشاف الأسباب الفعلية التي جعلت الاستراتيجيات الأقل تخصصًا تؤدي إلى نماذج أكثر كفاءة من الاستراتيجيات الأقوى. علاوة على ذلك، فإن مقارنة النموذج المُقترَح مع نماذج MCTS أخرى ستساعد أيضًا في الحصول على تقييم أكثر دقة للنهج.