Оптимизация трансформеров

📖

термины

Параметр-эффективная тонкая настройка (PEFT)

Набор техник, позволяющих адаптировать предварительно обученные модели, изменяя лишь небольшое подмножество параметров, тем самым снижая вычислительные затраты.

📖

термины

LoRA (Low-Rank Adaptation/Адаптация низкого ранга)

Метод PEFT, внедряющий матрицы низкого ранга в слои Transformer, позволяющий эффективную тонкую настройку всего с 0.1% исходных параметров.

📖

термины

Адаптеры

Легкие нейронные модули, вставляемые между слоями Transformer, которые можно обучать независимо для адаптации модели к новым задачам без изменения исходных весов.

📖

термины

Flash Attention

Точная алгоритмическая реализация механизма внимания, оптимизированная для современных GPU, устраняющая избыточные операции чтения/записи памяти для ускорения обучения.

📖

термины

Динамическое удаление токенов

Адаптивная техника, выборочно удаляющая менее релевантные токены во время прямого прохода для снижения вычислительной сложности механизма внимания.

📖

термины

Zero Redundancy Optimizer (ZeRO/Оптимизатор нулевой избыточности)

Фреймворк оптимизации, распределяющий состояния оптимизатора, градиенты и параметры по нескольким GPU для устранения избыточности памяти во время обучения.

📖

термины

Параллелизм моделей

Стратегия распределения, при которой различные компоненты модели размещаются на разных вычислительных устройствах для управления моделями, превышающими память одного GPU.

📖

термины

Конвейерный параллелизм

Форма параллелизма моделей, при которой слои распределены по разным GPU и обрабатываются в конвейере для улучшения использования ресурсов.

📖

термины

Тензорный параллелизм

Техника параллелизма, разделяющая тензоры весов между несколькими GPU для обучения слоев, которые не помещаются в память одного устройства.

📖

термины

Накопление градиентов

Метод, имитирующий больший размер пакета путем накопления градиентов за несколько прямых проходов перед обновлением весов модели.

📖

термины

Послойное затухание скорости обучения

Стратегия оптимизации, применяющая разные скорости обучения в зависимости от глубины слоев, обычно более высокие для верхних слоев.

📖

термины

Обучение по учебной программе

Подход к обучению, представляющий примеры в порядке возрастания сложности, ускоряющий сходимость и улучшающий итоговую производительность.

📖

термины

Смесь экспертов (MoE)

Архитектура, в которой каждый токен обрабатывается подмножеством специализированных экспертов, позволяющая увеличить емкость модели без линейного роста затрат.

📖

термины

Обратимые слои

Слои Transformer, разработанные для восстановления активаций из выходных данных, устраняющие необходимость хранения промежуточных активаций.

📖

термины

Внедрение шумов в градиенты

Техника регуляризации, добавляющая гауссовский шум к градиентам во время обучения для улучшения обобщения и предотвращения субоптимальных локальных минимумов.

📖

термины

Шардирование состояний оптимизатора

Метод распределения памяти, разделяющий состояния оптимизатора на несколько GPU для значительного сокращения использования памяти во время обучения.

Глоссарий ИИ

Параметр-эффективная тонкая настройка (PEFT)

LoRA (Low-Rank Adaptation/Адаптация низкого ранга)

Адаптеры

Flash Attention

Динамическое удаление токенов

Zero Redundancy Optimizer (ZeRO/Оптимизатор нулевой избыточности)

Параллелизм моделей

Конвейерный параллелизм

Тензорный параллелизм

Накопление градиентов

Послойное затухание скорости обучения

Обучение по учебной программе

Смесь экспертов (MoE)

Обратимые слои

Внедрение шумов в градиенты

Шардирование состояний оптимизатора

Результаты не найдены