Batch Constrained Q-learning (BCQ)
Distribution Shift
Fenômeno em que a distribuição dos estados-ações visitados pela política aprendida difere significativamente da distribuição do conjunto de dados offline. Este desvio pode levar a estimativas de valor enviesadas e a um desempenho degradado durante a implementação.
← Voltar