التعلم بالتعزيز متعدد الأهداف المستمر
التعلم المعزز القائم على التفضيلات
نهج يتم فيه دمج تفضيلات الإنسان حول الموازنة بين الأهداف في عملية التعلم لتوجيه الوكيل نحو حلول مرغوبة في جبهة باريتو.
← رجوع