Мало-ресурсные модели

📖

термины

Доработка низкого ранга (LoRA)

Метод адаптации модели, который замораживает предварительно обученные веса и внедряет небольшие матрицы с разложением низкого ранга, позволяя эффективно адаптировать большую языковую модель (LLM) к новым задачам с очень малым количеством обучаемых параметров.

📖

термины

Эффективное обучение параметров (PEFT)

Парадигма обучения, заключающаяся в настройке лишь ничтожной доли параметров большой предварительно обученной модели, что делает дообучение доступным на потребительском оборудовании, сохраняя при этом знания базовой модели.

📖

термины

Структурное прореживание

Техника прореживания модели, которая удаляет целые и согласованные компоненты (головки внимания, нейроны, слои), а не отдельные веса, чтобы сократить вычислительные затраты, сохраняя архитектуру, совместимую с аппаратными ускорителями.

📖

термины

Постепенное обучение слоев

Стратегия обучения, при которой слои модели вводятся и активируются последовательно, начиная с неглубокой сети и постепенно добавляя глубину для стабилизации обучения и снижения первоначальных требований к ресурсам.

📖

термины

Эффективный по памяти оптимизатор

Вариант оптимизатора (например, Adafactor или 8-битный Adam), который уменьшает объем памяти, занимаемый состояниями оптимизатора, избегая хранения моментов для всех параметров, что критически важно для обучения больших моделей на графических процессорах с ограниченным объемом памяти.

📖

термины

Контрольные точки градиента (Gradient Checkpointing)

Техника компромисса между вычислениями и памятью, при которой промежуточные активации не сохраняются во время прямого прохода, а пересчитываются во время обратного прохода, что резко снижает использование памяти GPU ценой увеличения времени вычислений.

📖

термины

Самоконтролируемое обучение на необработанных корпусах

Подход к предварительному обучению, который использует огромные объемы немаркированных текстовых данных, создавая внутренние задачи прогнозирования (например, маскирование слов), что позволяет создавать основу модели без зависимости от дорогостоящих размеченных данных.

📖

термины

Настройка на инструкции по парам (Instruction Tuning by Pairs)

Метод дообучения, который использует пары примеров (инструкция, желаемый вывод) для настройки модели на выполнение различных задач, улучшая ее способность следовать инструкциям с использованием ограниченного количества демонстрационных данных.

📖

термины

Обрезка голов внимания

Специализированный метод прунинга, который выявляет и удаляет головы внимания в механизмах Трансформера, вносящие наименьший вклад в производительность модели, тем самым снижая вычислительную сложность слоя самовнимания.

📖

термины

Многозадачная дистилляция знаний

Вариант дистилляции, при котором одна модель-студент учится имитировать выходные данные набора моделей-учителей, специализирующихся на различных задачах, приобретая тем самым универсальность при низких вычислительных затратах.

📖

термины

Обучение на синтетических данных

Стратегия, заключающаяся в искусственной генерации больших объемов обучающих данных (текст, пары вопрос-ответ) с помощью мощной LLM для последующего обучения или дообучения меньшей модели, что снижает зависимость от реальных данных.

📖

термины

Оптимизация памяти с помощью выгрузки активаций

Техника, которая перемещает промежуточные активации из быстрой памяти GPU в более медленную память CPU (или на диск) во время обучения, позволяя запускать модели, размер которых превышает обычные возможности GPU.

📖

термины

Настройка адаптацией префикса (Prefix-Tuning)

Метод PEFT, заключающийся в предварительном обучении только небольшого вектора токенов префикса, добавляемого на вход каждого слоя Трансформера, направляя поведение замороженной модели для выполнения конкретной задачи с пренебрежимо малыми затратами.

📖

термины

Обучение с накоплением градиента

Процесс, имитирующий больший размер пакета (batch size) путем накопления градиентов за несколько прямых проходов с небольшими пакетами перед выполнением одного шага обновления весов, что позволяет обойти ограничения памяти GPU.

📖

термины

Сжатие словаря

Техника, уменьшающая размер слоя встраивания (embedding) путем объединения редких или семантически близких токенов, что снижает количество параметров и объем памяти, необходимый для хранения представлений слов модели.

📖

термины

Адверсариальная настройка (Adversarial Tuning)

Подход, использующий враждебную модель для генерации сложных примеров или атак, чтобы обучить модель-студента быть более устойчивой и эффективной при меньшем объеме данных за счет фокуса на пограничных случаях.

Глоссарий ИИ

Доработка низкого ранга (LoRA)

Эффективное обучение параметров (PEFT)

Структурное прореживание

Постепенное обучение слоев

Эффективный по памяти оптимизатор

Контрольные точки градиента (Gradient Checkpointing)

Самоконтролируемое обучение на необработанных корпусах

Настройка на инструкции по парам (Instruction Tuning by Pairs)

Обрезка голов внимания

Многозадачная дистилляция знаний

Обучение на синтетических данных

Оптимизация памяти с помощью выгрузки активаций

Настройка адаптацией префикса (Prefix-Tuning)

Обучение с накоплением градиента

Сжатие словаря

Адверсариальная настройка (Adversarial Tuning)

Результаты не найдены