الانحدار الكمي للتعلم المعزز التوزيعي

📖

المصطلحات

تعلم تعزيزي عميق بالانحدار الكمي

نهج تعلم تعزيزي عميق يقوم بنمذجة التوزيع الكامل للعوائد المتوقعة بدلاً من مجرد توقعها، باستخدام الانحدار الكمي لتقدير كميات توزيع القيمة.

📖

المصطلحات

مسافة فازرستاين في التعلم التعزيزي العميق

مقياس مسافة بين التوزيعات يُستخدم في التعلم التعزيزي التوزيعي لقياس عدم التشابه بين توزيعات العوائد المتوقعة والمستهدفة، مما يعزز استقرار التعلم بشكل أفضل.

📖

المصطلحات

نمذجة توزيع القيمة

تقنية تهدف إلى تقريب التوزيع الكامل للعوائد المتوقعة لكل زوج حالة-إجراء بدلاً من مجرد توقعها، لالتقاط عدم اليقين والتقلبات المتأصلة في البيئة.

📖

المصطلحات

تعلم تعزيزي بانحدار التوقع

نسخة من التعلم التعزيزي التوزيعي تستخدم الانحدار التوقعي بدلاً من الانحدار الكمي، مما يوفر تباينًا يمكن التحكم فيه في تقدير توزيع العائد، وهو مناسب بشكل خاص للسياقات الحساسة للمخاطر.

📖

المصطلحات

توزيع العائد الاحتمالي

تمثيل احتمالي كامل للعوائد المستقبلية المتوقعة لكل زوج حالة-إجراء، لا يميز فقط المتوسط بل أيضًا التباين، الانحراف، واللحظات الإحصائية الأخرى.

📖

المصطلحات

تحديث بيلمان التوزيعي المسقط

إجراء تحديث يقوم بإسقاط توزيع العائد المستهدف على مساحة التوزيعات المدعومة، مما يضمن اتساق واستقرار التعلم في الإطار التوزيعي.

📖

المصطلحات

تقييم مخاطر الذيل في التعلم التعزيزي العميق

قدرة التعلم التعزيزي التوزيعي على تقييم المخاطر القصوى (مخاطر الذيل) كميًا من خلال تحليل ذيول توزيعات العوائد، وهو أمر بالغ الأهمية للتطبيقات الحساسة.

📖

المصطلحات

استراتيجيات أخذ العينات الكمية

تقنيات أخذ عينات الكميات في سياق التعلم التعزيزي العميق بالانحدار الكمي (QR-DRL)، بما في ذلك أخذ العينات المنتظم، التكيفي، أو القائم على الأهمية لتحسين كفاءة تعلم التوزيع.

قاموس الذكاء الاصطناعي

تعلم تعزيزي عميق بالانحدار الكمي

مسافة فازرستاين في التعلم التعزيزي العميق

نمذجة توزيع القيمة

تعلم تعزيزي بانحدار التوقع

توزيع العائد الاحتمالي

تحديث بيلمان التوزيعي المسقط

تقييم مخاطر الذيل في التعلم التعزيزي العميق

استراتيجيات أخذ العينات الكمية

لم يتم العثور على نتائج