Глоссарий ИИ
Полный словарь искусственного интеллекта
RMSprop
Адаптивный метод оптимизации, который делит скорость обучения на экспоненциальное скользящее среднее квадратов недавних градиентов для управления градиентами большой величины.
Adagrad
Адаптивный алгоритм оптимизации, который настраивает скорость обучения для каждого параметра, накапливая квадраты исторических градиентов, что благоприятно сказывается на редких параметрах.
Adadelta
Расширение Adagrad, которое решает проблему резкого уменьшения скорости обучения, ограничивая окно прошлых градиентов фиксированным размером с помощью экспоненциального скользящего среднего.
Adamax
Вариант Adam, основанный на бесконечной норме вместо L2-нормы, обеспечивающий большую численную стабильность и более устойчивую сходимость в некоторых сценариях.
Nadam
Комбинация Nesterov accelerated gradient и Adam, которая интегрирует ускорение Нестерова в адаптивную структуру Adam для более быстрой и стабильной сходимости.
AMSGrad
Модификация Adam, гарантирующая теоретическую сходимость путем сохранения максимума квадратов экспоненциальных скользящих средних во избежание потенциальных расхождений Adam.
AdamW
Вариант Adam, который отделяет затухание весов (weight decay) от адаптивного обновления, применяя затухание непосредственно к весам, а не к градиентам.
SGDW
Расширение SGD с отделенным затуханием весов, которое применяет затухание весов независимо от обновления по градиенту для лучшей регуляризации.
RAdam
Rectified Adam, который решает проблему высокой дисперсии на начальных этапах обучения, вводя механизм адаптивного выпрямления.
YellowFin
Оптимизатор, который автоматически настраивает скорость обучения и коэффициент импульса, используя теоретический анализ локальной сходимости методов второго порядка.
LARS
Layer-wise Adaptive Rate Scaling, который адаптирует скорость обучения по слоям в зависимости от отношения L2-нормы весов к градиентам для крупномасштабного обучения.
LAMB
Layer-wise Adaptive Moments optimizer for Batch training, который расширяет LARS, интегрируя адаптивную статистику в стиле Adam для эффективного обучения огромных моделей.
Rprop
Resilient Backpropagation, который адаптирует скорость обучения для каждого параметра, игнорируя величину градиента и учитывая только его знак для надежных обновлений.
QHAdam
Quasi-Hyperbolic Adam, который обобщает Adam и Momentum, вводя параметры квазигиперболичности для точного контроля вклада моментов.