Оптимизация на основе импульса

📖

термины

RMSprop

Адаптивный метод оптимизации, который делит скорость обучения на экспоненциальное скользящее среднее квадратов недавних градиентов для управления градиентами большой величины.

📖

термины

Adagrad

Адаптивный алгоритм оптимизации, который настраивает скорость обучения для каждого параметра, накапливая квадраты исторических градиентов, что благоприятно сказывается на редких параметрах.

📖

термины

Adadelta

Расширение Adagrad, которое решает проблему резкого уменьшения скорости обучения, ограничивая окно прошлых градиентов фиксированным размером с помощью экспоненциального скользящего среднего.

📖

термины

Adamax

Вариант Adam, основанный на бесконечной норме вместо L2-нормы, обеспечивающий большую численную стабильность и более устойчивую сходимость в некоторых сценариях.

📖

термины

Nadam

Комбинация Nesterov accelerated gradient и Adam, которая интегрирует ускорение Нестерова в адаптивную структуру Adam для более быстрой и стабильной сходимости.

📖

термины

AMSGrad

Модификация Adam, гарантирующая теоретическую сходимость путем сохранения максимума квадратов экспоненциальных скользящих средних во избежание потенциальных расхождений Adam.

📖

термины

AdamW

Вариант Adam, который отделяет затухание весов (weight decay) от адаптивного обновления, применяя затухание непосредственно к весам, а не к градиентам.

📖

термины

SGDW

Расширение SGD с отделенным затуханием весов, которое применяет затухание весов независимо от обновления по градиенту для лучшей регуляризации.

📖

термины

RAdam

Rectified Adam, который решает проблему высокой дисперсии на начальных этапах обучения, вводя механизм адаптивного выпрямления.

📖

термины

YellowFin

Оптимизатор, который автоматически настраивает скорость обучения и коэффициент импульса, используя теоретический анализ локальной сходимости методов второго порядка.

📖

термины

LARS

Layer-wise Adaptive Rate Scaling, который адаптирует скорость обучения по слоям в зависимости от отношения L2-нормы весов к градиентам для крупномасштабного обучения.

📖

термины

LAMB

Layer-wise Adaptive Moments optimizer for Batch training, который расширяет LARS, интегрируя адаптивную статистику в стиле Adam для эффективного обучения огромных моделей.

📖

термины

Rprop

Resilient Backpropagation, который адаптирует скорость обучения для каждого параметра, игнорируя величину градиента и учитывая только его знак для надежных обновлений.

📖

термины

QHAdam

Quasi-Hyperbolic Adam, который обобщает Adam и Momentum, вводя параметры квазигиперболичности для точного контроля вклада моментов.

Глоссарий ИИ

RMSprop

Adagrad

Adadelta

Adamax

Nadam

AMSGrad

AdamW

SGDW

RAdam

YellowFin

LARS

LAMB

Rprop

QHAdam

Результаты не найдены