Глоссарий ИИ
Полный словарь искусственного интеллекта
DETR (DEtection TRansformer)
Пионерская архитектура, которая устраняет необходимость в якорях и подавлении не-максимумов, рассматривая обнаружение объектов как задачу прямого предсказания множества, используя двудольный трансформер для моделирования отношений между объектами.
Двудольный трансформер
Вариант архитектуры Transformer, где механизмы внимания применяются между характеристиками изображения и небольшим фиксированным набором обучаемых запросов объектов, обеспечивая параллельное предсказание объектов.
Запросы объектов (Object Queries)
Обучаемые позиционные векторы встраивания, которые служат слотами для каждого потенциального предсказания объекта, взаимодействуя с характеристиками изображения через механизм внимания для извлечения релевантной информации.
Потеря двудольного сопоставления (Bipartite Matching Loss)
Функция потерь, основанная на венгерском алгоритме, который находит оптимальное соответствие один-к-одному между предсказаниями модели и реальными данными, решая проблему перестановки предсказаний без надзора.
Энкодер-декодер трансформер
Структура, в которой энкодер обрабатывает характеристики изображения для создания богатого контекстом представления, а декодер использует запросы объектов для декодирования этого представления в окончательные предсказания рамок и классов.
Многоголовое многошкальное внимание (MSA)
Механизм внимания, который работает на объединенных характеристиках нескольких уровней карты характеристик, позволяя модели одновременно захватывать локальную и глобальную информацию для лучшего обнаружения объектов различных размеров.
DETR-ResNet
Вариант DETR, который использует сверточную нейронную сеть ResNet в качестве основного экстрактора характеристик, объединяя мощь CNN для извлечения характеристик с глобальным рассуждением трансформеров.
Mask2Former
Унифицированная архитектура для панорамной, инстансной и семантической сегментации, которая маскирует области интереса и предсказывает маски непосредственно используя трансформеры, превосходя предыдущие подходы в точности и простоте.
Позиционные эмбеддинги
Векторы, добавляемые к признакам изображения для предоставления пространственной информации трансформеру, необходимые для того, чтобы модель понимала геометрию сцены и правильно локализовала объекты.
Условный DETR
Улучшение DETR, которое ускоряет сходимость, обусловливая запросы объектов содержимым изображения, что позволяет лучшую специализацию запросов и более точные предсказания.
Деформируемый DETR
Вариант DETR, который интегрирует деформируемые модули внимания для концентрации на небольшом наборе ключевых точек, значительно улучшая скорость сходимости и производительность, особенно для малых объектов.
Разреженный R-CNN
Полностью разреженный подход к обнаружению, который использует фиксированный набор обучаемых предложенных рамок и каскад трансформеров для уточнения предсказаний, устраняя потребность в эвристиках, таких как якоря или NMS.
Запрос к вниманию
Механизм, при котором запросы объектов направляют внимание модели к релевантным областям изображения, в отличие от глобального внимания, что повышает эффективность и специализацию предсказаний.
DINO (DETR с улучшенными денойзинговыми якорными рамками)
Передовая модель, которая объединяет улучшенные денойзинговые якорные рамки с архитектурой трансформера, достигая передовой производительности на тестах обнаружения без необходимости в NMS.
Фокальная потеря для трансформеров
Функция потерь, разработанная для решения проблемы медленной сходимости моделей DETR путем концентрации на сложных примерах и уменьшения вклада легко классифицируемых примеров.
Паноптическая сегментация с помощью трансформера
Применение архитектур трансформеров к унифицированной задаче паноптической сегментации, предсказывающей одновременно семантические маски для объектов и фона с помощью одной сквозной модели.
Mamba-DETR
Архитектура обнаружения, которая заменяет механизмы внимания на блоки пространственных состояний (State Space Blocks), вдохновленные Mamba, предлагающая линейную сложность и конкурентоспособную производительность для обнаружения объектов в реальном времени.