Batch Constrained Q-learning (BCQ)
Erro de Bootstrapping
Erro acumulado quando uma política usa suas próprias estimativas de valor para melhorar, levando a uma divergência fora do suporte dos dados. Métodos offline usam técnicas específicas para controlar esse viés.
← Voltar