Batch Constrained Q-learning (BCQ)
RL em Lote
Estrutura de aprendizagem por reforço onde o agente possui um lote fixo de transições e deve aprender uma política ótima sem interações adicionais. Este contexto impõe restrições específicas aos algoritmos para evitar a divergência.
← Voltar