Разреженное внимание

📖

термины

Longformer

Архитектура Transformer, использующая комбинацию локального внимания скользящего окна и глобального внимания для эффективной обработки очень длинных последовательностей с линейной сложностью.

📖

термины

Модель, реализующая разреженное внимание через три паттерна: локальное, глобальное и случайное внимание, позволяющая обрабатывать последовательности до 4096 токенов с теоретическим сохранением универсальных свойств.

📖

термины

Sliding Window Attention

Техника, где каждый токен уделяет внимание только фиксированному числу соседей в скользящем окне, снижая сложность до O(n*w), где w - размер окна.

📖

термины

Dilated Sliding Window

Вариант внимания скользящего окна, использующий пропуски (дилятацию) для увеличения рецептивного поля без увеличения вычислительной сложности.

📖

термины

Global Attention

Механизм, где некоторые предопределенные токены (например, токены [CLS]) могут привлекать внимание всех остальных токенов, позволяя распространение информации по всей последовательности.

📖

термины

Random Attention

Подход, где каждый токен случайно привлекает внимание к подмножеству удаленных токенов, сохраняя длинные соединения с низкими вычислительными издержками.

📖

термины

Pattern-based Attention

Стратегия, применяющая предопределенные паттерны разреженного внимания (например, фиксированные или изученные паттерны) для определения, какие пары запрос-ключ вычислять.

📖

термины

Linear Complexity Attention

Класс методов внимания, снижающих алгоритмическую сложность с O(n²) до O(n), позволяющий масштабирование для очень длинных последовательностей.

📖

термины

Kernel-based Attention

Подход, использующий ядра для аппроксимации softmax-внимания, позволяющий выполнять вычисления с линейной сложностью с помощью таких техник, как FAVOR+ (Fast Attention Via Positive Orthogonal Random Features).

📖

термины

Low-rank Approximation

Техника аппроксимации матрицы внимания с помощью разложения низкого ранга, значительно снижающая требования к памяти и вычислениям.

📖

термины

Clustering-based Attention

Метод, который сначала группирует токены в похожие кластеры, а затем применяет внимание на уровне кластеров, что уменьшает количество требуемых вычислений.

📖

термины

Routing Attention

Механизм, который учится направлять запросы к наиболее релевантным ключам с помощью функций маршрутизации на основе содержимого, избегая ненужных вычислений.

📖

термины

Reformer

Архитектура, использующая локально-чувствительное хеширование (LSH) для ограничения вычислений внимания наиболее похожими парами, с квазилинейной сложностью по длине последовательности.

📖

термины

Performer

Модель, основанная на внимании FAVOR+, которая эффективно аппроксимирует softmax-внимание с помощью положительных ортогональных случайных признаков, обеспечивая линейную сложность.

📖

термины

Linformer

Архитектура, которая проецирует матрицу ключ-значение в пространство меньшей размерности, преобразуя сложность с O(n²) на O(n*k), где k << n.

📖

термины

Routing Transformer

Модель, использующая маршрутизацию на основе k-средних для группировки токенов и выборочного применения внимания, оптимизируя вычисления для зависимостей на больших расстояниях.

📖

термины

Сортировка Синкхорна (Sinkhorn Sorting)

Алгоритм, использующий итерации Синкхорна для преобразования механизма внимания в дифференцируемую перестановку, применяемый в архитектурах с разреженным вниманием.

📖

термины

Эффективное внимание (Efficient Attention)

Парадигма, объединяющая все варианты механизма внимания, направленные на снижение вычислительной сложности при сохранении моделирующих возможностей архитектуры Трансформер.

Глоссарий ИИ

Longformer

BigBird

Sliding Window Attention

Dilated Sliding Window

Global Attention

Random Attention

Pattern-based Attention

Linear Complexity Attention

Kernel-based Attention

Low-rank Approximation

Clustering-based Attention

Routing Attention

Reformer

Performer

Linformer

Routing Transformer

Сортировка Синкхорна (Sinkhorn Sorting)

Эффективное внимание (Efficient Attention)

Результаты не найдены