Глоссарий ИИ
Полный словарь искусственного интеллекта
Параметр-эффективная тонкая настройка (PEFT)
Набор техник, позволяющих адаптировать предварительно обученные модели, изменяя лишь небольшое подмножество параметров, тем самым снижая вычислительные затраты.
LoRA (Low-Rank Adaptation/Адаптация низкого ранга)
Метод PEFT, внедряющий матрицы низкого ранга в слои Transformer, позволяющий эффективную тонкую настройку всего с 0.1% исходных параметров.
Адаптеры
Легкие нейронные модули, вставляемые между слоями Transformer, которые можно обучать независимо для адаптации модели к новым задачам без изменения исходных весов.
Flash Attention
Точная алгоритмическая реализация механизма внимания, оптимизированная для современных GPU, устраняющая избыточные операции чтения/записи памяти для ускорения обучения.
Динамическое удаление токенов
Адаптивная техника, выборочно удаляющая менее релевантные токены во время прямого прохода для снижения вычислительной сложности механизма внимания.
Zero Redundancy Optimizer (ZeRO/Оптимизатор нулевой избыточности)
Фреймворк оптимизации, распределяющий состояния оптимизатора, градиенты и параметры по нескольким GPU для устранения избыточности памяти во время обучения.
Параллелизм моделей
Стратегия распределения, при которой различные компоненты модели размещаются на разных вычислительных устройствах для управления моделями, превышающими память одного GPU.
Конвейерный параллелизм
Форма параллелизма моделей, при которой слои распределены по разным GPU и обрабатываются в конвейере для улучшения использования ресурсов.
Тензорный параллелизм
Техника параллелизма, разделяющая тензоры весов между несколькими GPU для обучения слоев, которые не помещаются в память одного устройства.
Накопление градиентов
Метод, имитирующий больший размер пакета путем накопления градиентов за несколько прямых проходов перед обновлением весов модели.
Послойное затухание скорости обучения
Стратегия оптимизации, применяющая разные скорости обучения в зависимости от глубины слоев, обычно более высокие для верхних слоев.
Обучение по учебной программе
Подход к обучению, представляющий примеры в порядке возрастания сложности, ускоряющий сходимость и улучшающий итоговую производительность.
Смесь экспертов (MoE)
Архитектура, в которой каждый токен обрабатывается подмножеством специализированных экспертов, позволяющая увеличить емкость модели без линейного роста затрат.
Обратимые слои
Слои Transformer, разработанные для восстановления активаций из выходных данных, устраняющие необходимость хранения промежуточных активаций.
Внедрение шумов в градиенты
Техника регуляризации, добавляющая гауссовский шум к градиентам во время обучения для улучшения обобщения и предотвращения субоптимальных локальных минимумов.
Шардирование состояний оптимизатора
Метод распределения памяти, разделяющий состояния оптимизатора на несколько GPU для значительного сокращения использования памяти во время обучения.