قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
تعلم تعزيزي عميق بالانحدار الكمي
نهج تعلم تعزيزي عميق يقوم بنمذجة التوزيع الكامل للعوائد المتوقعة بدلاً من مجرد توقعها، باستخدام الانحدار الكمي لتقدير كميات توزيع القيمة.
مسافة فازرستاين في التعلم التعزيزي العميق
مقياس مسافة بين التوزيعات يُستخدم في التعلم التعزيزي التوزيعي لقياس عدم التشابه بين توزيعات العوائد المتوقعة والمستهدفة، مما يعزز استقرار التعلم بشكل أفضل.
نمذجة توزيع القيمة
تقنية تهدف إلى تقريب التوزيع الكامل للعوائد المتوقعة لكل زوج حالة-إجراء بدلاً من مجرد توقعها، لالتقاط عدم اليقين والتقلبات المتأصلة في البيئة.
تعلم تعزيزي بانحدار التوقع
نسخة من التعلم التعزيزي التوزيعي تستخدم الانحدار التوقعي بدلاً من الانحدار الكمي، مما يوفر تباينًا يمكن التحكم فيه في تقدير توزيع العائد، وهو مناسب بشكل خاص للسياقات الحساسة للمخاطر.
توزيع العائد الاحتمالي
تمثيل احتمالي كامل للعوائد المستقبلية المتوقعة لكل زوج حالة-إجراء، لا يميز فقط المتوسط بل أيضًا التباين، الانحراف، واللحظات الإحصائية الأخرى.
تحديث بيلمان التوزيعي المسقط
إجراء تحديث يقوم بإسقاط توزيع العائد المستهدف على مساحة التوزيعات المدعومة، مما يضمن اتساق واستقرار التعلم في الإطار التوزيعي.
تقييم مخاطر الذيل في التعلم التعزيزي العميق
قدرة التعلم التعزيزي التوزيعي على تقييم المخاطر القصوى (مخاطر الذيل) كميًا من خلال تحليل ذيول توزيعات العوائد، وهو أمر بالغ الأهمية للتطبيقات الحساسة.
استراتيجيات أخذ العينات الكمية
تقنيات أخذ عينات الكميات في سياق التعلم التعزيزي العميق بالانحدار الكمي (QR-DRL)، بما في ذلك أخذ العينات المنتظم، التكيفي، أو القائم على الأهمية لتحسين كفاءة تعلم التوزيع.