Glosario IA
El diccionario completo de la Inteligencia Artificial
RMSprop
Técnica de optimización adaptativa que divide la tasa de aprendizaje por una media móvil exponencial de los cuadrados de los gradientes recientes para manejar gradientes de gran magnitud.
Adagrad
Algoritmo de optimización adaptativo que ajusta la tasa de aprendizaje de cada parámetro acumulando los cuadrados de los gradientes históricos, favoreciendo los parámetros poco frecuentes.
Adadelta
Extensión de Adagrad que resuelve el problema de la drástica disminución de la tasa de aprendizaje limitando la ventana de los gradientes pasados a un tamaño fijo mediante una media móvil exponencial.
Adamax
Variante de Adam basada en la norma infinita en lugar de la norma L2, que ofrece una mayor estabilidad numérica y una convergencia más robusta en ciertos escenarios.
Nadam
Combinación del gradiente acelerado de Nesterov y Adam que integra la aceleración de Nesterov en el marco adaptativo de Adam para una convergencia más rápida y estable.
AMSGrad
Modificación de Adam que garantiza una convergencia teórica al mantener el máximo de las medias móviles exponenciales al cuadrado para evitar posibles divergencias de Adam.
AdamW
Variante de Adam que desacopla la decaimiento de pesos (weight decay) de la actualización adaptativa, aplicando la decaimiento directamente a los pesos en lugar de a los gradientes.
SGDW
Extensión de SGD con decaimiento de pesos desacoplado que aplica la decaimiento de pesos independientemente de la actualización por gradiente para una mejor regularización.
RAdam
Rectified Adam que resuelve el problema de la gran varianza en las fases iniciales de entrenamiento introduciendo un mecanismo de rectificación adaptativo.
YellowFin
Optimizador que ajusta automáticamente la tasa de aprendizaje y el coeficiente de momentum utilizando un análisis teórico de la convergencia local de los métodos de segundo orden.
LARS
Layer-wise Adaptive Rate Scaling que adapta la tasa de aprendizaje por capa en función de la relación entre la norma L2 de los pesos y los gradientes para entrenamientos a gran escala.
LAMB
Layer-wise Adaptive Moments optimizer for Batch training que extiende LARS integrando estadísticas adaptativas tipo Adam para un entrenamiento eficiente de modelos masivos.
Rprop
Resilient Backpropagation que adapta la tasa de aprendizaje por parámetro ignorando la magnitud del gradiente y considerando solo su signo para actualizaciones robustas.
QHAdam
Quasi-Hyperbolic Adam que generaliza Adam y Momentum introduciendo parámetros de cuasi-hiperbolicidad para un control fino de la contribución de los momentos.