Optimización del Aprendizaje en Línea
AdaMax
Extensión de Adam que utiliza la norma infinita de los gradientes pasados en lugar de la norma L2, ofreciendo una mejor estabilidad numérica en algunos casos extremos de datos secuenciales.
← Volver