التعلم بالتعزيز متعدد الأهداف

📖

المصطلحات

امتداد لخوارزمية التعلم بالتعزيز التقليدية التي تتعامل مع متجهات المكافآت بدلاً من القيم العددية، مما يسمح بالتحسين المتزامن لأهداف متعددة ومتعارضة.

📖

المصطلحات

متجه قيم Q

هيكل بيانات متعدد الأبعاد حيث يمثل كل عنصر قيمة Q لهدف معين، يحل محل القيمة العددية الفريدة للتعلم بالتعزيز الكلاسيكي.

📖

المصطلحات

النهج المعجمي

استراتيجية حل متعددة الأهداف حيث يتم ترتيب الأهداف حسب الأولوية وتحسينها بالتسلسل، ولا يتم النظر في كل هدف إلا بعد التحسين الكامل للأهداف ذات الأولوية الأعلى.

📖

المصطلحات

التوازن متعدد الأهداف

التوازن الضروري بين تحسين بعض الأهداف والتدهور المحتمل لأخرى، وهو أمر متأصل في مسائل التحسين مع الأهداف المتعارضة.

📖

المصطلحات

قيمة Q الموزونة

تركيبة خطية من قيم Q الفردية لكل هدف باستخدام أوزان محددة تعكس الأهمية النسبية لكل هدف في القرار النهائي.

📖

المصطلحات

خوارزمية باريتو للتعلم بالتعزيز

متغير من التعلم بالتعزيز يحافظ على مجموعة من السياسات المثلى حسب باريتو ويتعلم قيم Q لجميع التوازنات الممكنة بين الأهداف في وقت واحد.

📖

المصطلحات

الاستكشاف متعدد الأهداف

استراتيجية استكشاف معدلة للبيئات متعددة الأهداف يجب أن توازن بين اكتشاف التوازنات بين الأهداف المختلفة مع الحفاظ على كفاءة التعلم.

📖

المصطلحات

توازن ناش في التعلم بالتعزيز

مفهوم من نظرية الألعاب مطبق على التعلم بالتعزيز متعدد الأهداف حيث لا يمكن لأي سياسة تحسين أدائها على هدف بشكل انفرادي دون تدهور أدائها على هدف آخر.

📖

المصطلحات

تفكيك الأهداف

تقنية تحول مشكلة متعددة الأهداف إلى عدة مشاكل فرعية أحادية الهدف يتم تحسينها في وقت واحد، مما يسهل اكتشاف حلول متنوعة على جبهة باريتو.

📖

المصطلحات

متجه المكافآت

متجه المكافآت متعدد الأبعاد حيث كل مكون يتوافق مع المكافأة المرتبطة بهدف محدد، محللاً إشارة المكافأة القياسية التقليدية.

📖

المصطلحات

تكييف فضاء السياسات

آلية تكييف ديناميكية لفضاء السياسات لإدارة التعقيد الإضافي الذي يقدمه الطابع متعدد الأهداف لمشكلة التعلم.

قاموس الذكاء الاصطناعي