قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
التعلم بالتعزيز متعدد الأهداف
امتداد لخوارزمية التعلم بالتعزيز التقليدية التي تتعامل مع متجهات المكافآت بدلاً من القيم العددية، مما يسمح بالتحسين المتزامن لأهداف متعددة ومتعارضة.
متجه قيم Q
هيكل بيانات متعدد الأبعاد حيث يمثل كل عنصر قيمة Q لهدف معين، يحل محل القيمة العددية الفريدة للتعلم بالتعزيز الكلاسيكي.
النهج المعجمي
استراتيجية حل متعددة الأهداف حيث يتم ترتيب الأهداف حسب الأولوية وتحسينها بالتسلسل، ولا يتم النظر في كل هدف إلا بعد التحسين الكامل للأهداف ذات الأولوية الأعلى.
التوازن متعدد الأهداف
التوازن الضروري بين تحسين بعض الأهداف والتدهور المحتمل لأخرى، وهو أمر متأصل في مسائل التحسين مع الأهداف المتعارضة.
قيمة Q الموزونة
تركيبة خطية من قيم Q الفردية لكل هدف باستخدام أوزان محددة تعكس الأهمية النسبية لكل هدف في القرار النهائي.
خوارزمية باريتو للتعلم بالتعزيز
متغير من التعلم بالتعزيز يحافظ على مجموعة من السياسات المثلى حسب باريتو ويتعلم قيم Q لجميع التوازنات الممكنة بين الأهداف في وقت واحد.
الاستكشاف متعدد الأهداف
استراتيجية استكشاف معدلة للبيئات متعددة الأهداف يجب أن توازن بين اكتشاف التوازنات بين الأهداف المختلفة مع الحفاظ على كفاءة التعلم.
توازن ناش في التعلم بالتعزيز
مفهوم من نظرية الألعاب مطبق على التعلم بالتعزيز متعدد الأهداف حيث لا يمكن لأي سياسة تحسين أدائها على هدف بشكل انفرادي دون تدهور أدائها على هدف آخر.
تفكيك الأهداف
تقنية تحول مشكلة متعددة الأهداف إلى عدة مشاكل فرعية أحادية الهدف يتم تحسينها في وقت واحد، مما يسهل اكتشاف حلول متنوعة على جبهة باريتو.
متجه المكافآت
متجه المكافآت متعدد الأبعاد حيث كل مكون يتوافق مع المكافأة المرتبطة بهدف محدد، محللاً إشارة المكافأة القياسية التقليدية.
تكييف فضاء السياسات
آلية تكييف ديناميكية لفضاء السياسات لإدارة التعقيد الإضافي الذي يقدمه الطابع متعدد الأهداف لمشكلة التعلم.