Глоссарий ИИ
Полный словарь искусственного интеллекта
Longformer
Архитектура Transformer, использующая комбинацию локального внимания скользящего окна и глобального внимания для эффективной обработки очень длинных последовательностей с линейной сложностью.
BigBird
Модель, реализующая разреженное внимание через три паттерна: локальное, глобальное и случайное внимание, позволяющая обрабатывать последовательности до 4096 токенов с теоретическим сохранением универсальных свойств.
Sliding Window Attention
Техника, где каждый токен уделяет внимание только фиксированному числу соседей в скользящем окне, снижая сложность до O(n*w), где w - размер окна.
Dilated Sliding Window
Вариант внимания скользящего окна, использующий пропуски (дилятацию) для увеличения рецептивного поля без увеличения вычислительной сложности.
Global Attention
Механизм, где некоторые предопределенные токены (например, токены [CLS]) могут привлекать внимание всех остальных токенов, позволяя распространение информации по всей последовательности.
Random Attention
Подход, где каждый токен случайно привлекает внимание к подмножеству удаленных токенов, сохраняя длинные соединения с низкими вычислительными издержками.
Pattern-based Attention
Стратегия, применяющая предопределенные паттерны разреженного внимания (например, фиксированные или изученные паттерны) для определения, какие пары запрос-ключ вычислять.
Linear Complexity Attention
Класс методов внимания, снижающих алгоритмическую сложность с O(n²) до O(n), позволяющий масштабирование для очень длинных последовательностей.
Kernel-based Attention
Подход, использующий ядра для аппроксимации softmax-внимания, позволяющий выполнять вычисления с линейной сложностью с помощью таких техник, как FAVOR+ (Fast Attention Via Positive Orthogonal Random Features).
Low-rank Approximation
Техника аппроксимации матрицы внимания с помощью разложения низкого ранга, значительно снижающая требования к памяти и вычислениям.
Clustering-based Attention
Метод, который сначала группирует токены в похожие кластеры, а затем применяет внимание на уровне кластеров, что уменьшает количество требуемых вычислений.
Routing Attention
Механизм, который учится направлять запросы к наиболее релевантным ключам с помощью функций маршрутизации на основе содержимого, избегая ненужных вычислений.
Reformer
Архитектура, использующая локально-чувствительное хеширование (LSH) для ограничения вычислений внимания наиболее похожими парами, с квазилинейной сложностью по длине последовательности.
Performer
Модель, основанная на внимании FAVOR+, которая эффективно аппроксимирует softmax-внимание с помощью положительных ортогональных случайных признаков, обеспечивая линейную сложность.
Linformer
Архитектура, которая проецирует матрицу ключ-значение в пространство меньшей размерности, преобразуя сложность с O(n²) на O(n*k), где k << n.
Routing Transformer
Модель, использующая маршрутизацию на основе k-средних для группировки токенов и выборочного применения внимания, оптимизируя вычисления для зависимостей на больших расстояниях.
Сортировка Синкхорна (Sinkhorn Sorting)
Алгоритм, использующий итерации Синкхорна для преобразования механизма внимания в дифференцируемую перестановку, применяемый в архитектурах с разреженным вниманием.
Эффективное внимание (Efficient Attention)
Парадигма, объединяющая все варианты механизма внимания, направленные на снижение вычислительной сложности при сохранении моделирующих возможностей архитектуры Трансформер.