Обучение с подкреплением для оптимизации
Совокупное вознаграждение
Сумма будущих дисконтированных вознаграждений, которую агент стремится максимизировать, часто рассчитываемая с использованием коэффициента дисконтирования для придания меньшего веса отдаленным вознаграждениям.
← Назад