Aprendizagem por Reforço para Otimização
Algoritmo de Gradiente de Política
Método de otimização que ajusta diretamente os parâmetros da política seguindo o gradiente da recompensa esperada em relação a esses parâmetros.
← Voltar