Глоссарий ИИ
Полный словарь искусственного интеллекта
Доработка низкого ранга (LoRA)
Метод адаптации модели, который замораживает предварительно обученные веса и внедряет небольшие матрицы с разложением низкого ранга, позволяя эффективно адаптировать большую языковую модель (LLM) к новым задачам с очень малым количеством обучаемых параметров.
Эффективное обучение параметров (PEFT)
Парадигма обучения, заключающаяся в настройке лишь ничтожной доли параметров большой предварительно обученной модели, что делает дообучение доступным на потребительском оборудовании, сохраняя при этом знания базовой модели.
Структурное прореживание
Техника прореживания модели, которая удаляет целые и согласованные компоненты (головки внимания, нейроны, слои), а не отдельные веса, чтобы сократить вычислительные затраты, сохраняя архитектуру, совместимую с аппаратными ускорителями.
Постепенное обучение слоев
Стратегия обучения, при которой слои модели вводятся и активируются последовательно, начиная с неглубокой сети и постепенно добавляя глубину для стабилизации обучения и снижения первоначальных требований к ресурсам.
Эффективный по памяти оптимизатор
Вариант оптимизатора (например, Adafactor или 8-битный Adam), который уменьшает объем памяти, занимаемый состояниями оптимизатора, избегая хранения моментов для всех параметров, что критически важно для обучения больших моделей на графических процессорах с ограниченным объемом памяти.
Контрольные точки градиента (Gradient Checkpointing)
Техника компромисса между вычислениями и памятью, при которой промежуточные активации не сохраняются во время прямого прохода, а пересчитываются во время обратного прохода, что резко снижает использование памяти GPU ценой увеличения времени вычислений.
Самоконтролируемое обучение на необработанных корпусах
Подход к предварительному обучению, который использует огромные объемы немаркированных текстовых данных, создавая внутренние задачи прогнозирования (например, маскирование слов), что позволяет создавать основу модели без зависимости от дорогостоящих размеченных данных.
Настройка на инструкции по парам (Instruction Tuning by Pairs)
Метод дообучения, который использует пары примеров (инструкция, желаемый вывод) для настройки модели на выполнение различных задач, улучшая ее способность следовать инструкциям с использованием ограниченного количества демонстрационных данных.
Обрезка голов внимания
Специализированный метод прунинга, который выявляет и удаляет головы внимания в механизмах Трансформера, вносящие наименьший вклад в производительность модели, тем самым снижая вычислительную сложность слоя самовнимания.
Многозадачная дистилляция знаний
Вариант дистилляции, при котором одна модель-студент учится имитировать выходные данные набора моделей-учителей, специализирующихся на различных задачах, приобретая тем самым универсальность при низких вычислительных затратах.
Обучение на синтетических данных
Стратегия, заключающаяся в искусственной генерации больших объемов обучающих данных (текст, пары вопрос-ответ) с помощью мощной LLM для последующего обучения или дообучения меньшей модели, что снижает зависимость от реальных данных.
Оптимизация памяти с помощью выгрузки активаций
Техника, которая перемещает промежуточные активации из быстрой памяти GPU в более медленную память CPU (или на диск) во время обучения, позволяя запускать модели, размер которых превышает обычные возможности GPU.
Настройка адаптацией префикса (Prefix-Tuning)
Метод PEFT, заключающийся в предварительном обучении только небольшого вектора токенов префикса, добавляемого на вход каждого слоя Трансформера, направляя поведение замороженной модели для выполнения конкретной задачи с пренебрежимо малыми затратами.
Обучение с накоплением градиента
Процесс, имитирующий больший размер пакета (batch size) путем накопления градиентов за несколько прямых проходов с небольшими пакетами перед выполнением одного шага обновления весов, что позволяет обойти ограничения памяти GPU.
Сжатие словаря
Техника, уменьшающая размер слоя встраивания (embedding) путем объединения редких или семантически близких токенов, что снижает количество параметров и объем памяти, необходимый для хранения представлений слов модели.
Адверсариальная настройка (Adversarial Tuning)
Подход, использующий враждебную модель для генерации сложных примеров или атак, чтобы обучить модель-студента быть более устойчивой и эффективной при меньшем объеме данных за счет фокуса на пограничных случаях.