Aprendizagem por Diferenciação de Modelos
Gradiente de Política Através do Modelo
Método que calcula os gradientes de política propagando as recompensas através de um modelo diferenciável do ambiente.
← Voltar