Optimización basada en el momento

📖

términos

RMSprop

Técnica de optimización adaptativa que divide la tasa de aprendizaje por una media móvil exponencial de los cuadrados de los gradientes recientes para manejar gradientes de gran magnitud.

📖

términos

Adagrad

Algoritmo de optimización adaptativo que ajusta la tasa de aprendizaje de cada parámetro acumulando los cuadrados de los gradientes históricos, favoreciendo los parámetros poco frecuentes.

📖

términos

Extensión de Adagrad que resuelve el problema de la drástica disminución de la tasa de aprendizaje limitando la ventana de los gradientes pasados a un tamaño fijo mediante una media móvil exponencial.

📖

términos

Adamax

Variante de Adam basada en la norma infinita en lugar de la norma L2, que ofrece una mayor estabilidad numérica y una convergencia más robusta en ciertos escenarios.

📖

términos

Nadam

Combinación del gradiente acelerado de Nesterov y Adam que integra la aceleración de Nesterov en el marco adaptativo de Adam para una convergencia más rápida y estable.

📖

términos

AMSGrad

Modificación de Adam que garantiza una convergencia teórica al mantener el máximo de las medias móviles exponenciales al cuadrado para evitar posibles divergencias de Adam.

📖

términos

AdamW

Variante de Adam que desacopla la decaimiento de pesos (weight decay) de la actualización adaptativa, aplicando la decaimiento directamente a los pesos en lugar de a los gradientes.

📖

términos

SGDW

Extensión de SGD con decaimiento de pesos desacoplado que aplica la decaimiento de pesos independientemente de la actualización por gradiente para una mejor regularización.

📖

términos

RAdam

Rectified Adam que resuelve el problema de la gran varianza en las fases iniciales de entrenamiento introduciendo un mecanismo de rectificación adaptativo.

📖

términos

YellowFin

Optimizador que ajusta automáticamente la tasa de aprendizaje y el coeficiente de momentum utilizando un análisis teórico de la convergencia local de los métodos de segundo orden.

📖

términos

LARS

Layer-wise Adaptive Rate Scaling que adapta la tasa de aprendizaje por capa en función de la relación entre la norma L2 de los pesos y los gradientes para entrenamientos a gran escala.

📖

términos

LAMB

Layer-wise Adaptive Moments optimizer for Batch training que extiende LARS integrando estadísticas adaptativas tipo Adam para un entrenamiento eficiente de modelos masivos.

📖

términos

Rprop

Resilient Backpropagation que adapta la tasa de aprendizaje por parámetro ignorando la magnitud del gradiente y considerando solo su signo para actualizaciones robustas.

📖

términos

QHAdam

Quasi-Hyperbolic Adam que generaliza Adam y Momentum introduciendo parámetros de cuasi-hiperbolicidad para un control fino de la contribución de los momentos.

Glosario IA

RMSprop

Adagrad

Adadelta

Adamax

Nadam

AMSGrad

AdamW

SGDW

RAdam

YellowFin

LARS

LAMB

Rprop

QHAdam

No se encontraron resultados