Batch Constrained Q-learning (BCQ)
Сдвиг Распределения
Феномен, когда распределение состояний-действий, посещаемых изученной политикой, значительно отличается от распределения офлайн набора данных. Этот сдвиг может привести к смещенным оценкам ценности и ухудшенной производительности при развертывании.
← Назад