RL Multi-Objetivo Continuo
Aprendizaje por Refuerzo con Espacio de Acciones Continuo
Paradigma de aprendizaje por refuerzo donde el agente puede elegir entre un infinito de acciones continuas, requiriendo algoritmos de optimización adaptados como PPO o SAC.
← Volver