Batch Constrained Q-learning (BCQ)
Неявное Q-обучение
Метод, который изучает Q-функцию неявно, избегая прямой оценки действий вне распределения. IQL формулирует обучение как проблему обучения по экспектилям для лучшего управления неопределенностью в офлайн данных.
← Назад