🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Параметр-эффективная тонкая настройка (PEFT)

Набор техник, позволяющих адаптировать предварительно обученные модели, изменяя лишь небольшое подмножество параметров, тем самым снижая вычислительные затраты.

📖
термины

LoRA (Low-Rank Adaptation/Адаптация низкого ранга)

Метод PEFT, внедряющий матрицы низкого ранга в слои Transformer, позволяющий эффективную тонкую настройку всего с 0.1% исходных параметров.

📖
термины

Адаптеры

Легкие нейронные модули, вставляемые между слоями Transformer, которые можно обучать независимо для адаптации модели к новым задачам без изменения исходных весов.

📖
термины

Flash Attention

Точная алгоритмическая реализация механизма внимания, оптимизированная для современных GPU, устраняющая избыточные операции чтения/записи памяти для ускорения обучения.

📖
термины

Динамическое удаление токенов

Адаптивная техника, выборочно удаляющая менее релевантные токены во время прямого прохода для снижения вычислительной сложности механизма внимания.

📖
термины

Zero Redundancy Optimizer (ZeRO/Оптимизатор нулевой избыточности)

Фреймворк оптимизации, распределяющий состояния оптимизатора, градиенты и параметры по нескольким GPU для устранения избыточности памяти во время обучения.

📖
термины

Параллелизм моделей

Стратегия распределения, при которой различные компоненты модели размещаются на разных вычислительных устройствах для управления моделями, превышающими память одного GPU.

📖
термины

Конвейерный параллелизм

Форма параллелизма моделей, при которой слои распределены по разным GPU и обрабатываются в конвейере для улучшения использования ресурсов.

📖
термины

Тензорный параллелизм

Техника параллелизма, разделяющая тензоры весов между несколькими GPU для обучения слоев, которые не помещаются в память одного устройства.

📖
термины

Накопление градиентов

Метод, имитирующий больший размер пакета путем накопления градиентов за несколько прямых проходов перед обновлением весов модели.

📖
термины

Послойное затухание скорости обучения

Стратегия оптимизации, применяющая разные скорости обучения в зависимости от глубины слоев, обычно более высокие для верхних слоев.

📖
термины

Обучение по учебной программе

Подход к обучению, представляющий примеры в порядке возрастания сложности, ускоряющий сходимость и улучшающий итоговую производительность.

📖
термины

Смесь экспертов (MoE)

Архитектура, в которой каждый токен обрабатывается подмножеством специализированных экспертов, позволяющая увеличить емкость модели без линейного роста затрат.

📖
термины

Обратимые слои

Слои Transformer, разработанные для восстановления активаций из выходных данных, устраняющие необходимость хранения промежуточных активаций.

📖
термины

Внедрение шумов в градиенты

Техника регуляризации, добавляющая гауссовский шум к градиентам во время обучения для улучшения обобщения и предотвращения субоптимальных локальных минимумов.

📖
термины

Шардирование состояний оптимизатора

Метод распределения памяти, разделяющий состояния оптимизатора на несколько GPU для значительного сокращения использования памяти во время обучения.

🔍

Результаты не найдены