Трансформеры для обнаружения

📖

термины

DETR (DEtection TRansformer)

Пионерская архитектура, которая устраняет необходимость в якорях и подавлении не-максимумов, рассматривая обнаружение объектов как задачу прямого предсказания множества, используя двудольный трансформер для моделирования отношений между объектами.

📖

термины

Двудольный трансформер

Вариант архитектуры Transformer, где механизмы внимания применяются между характеристиками изображения и небольшим фиксированным набором обучаемых запросов объектов, обеспечивая параллельное предсказание объектов.

📖

термины

Запросы объектов (Object Queries)

Обучаемые позиционные векторы встраивания, которые служат слотами для каждого потенциального предсказания объекта, взаимодействуя с характеристиками изображения через механизм внимания для извлечения релевантной информации.

📖

термины

Потеря двудольного сопоставления (Bipartite Matching Loss)

Функция потерь, основанная на венгерском алгоритме, который находит оптимальное соответствие один-к-одному между предсказаниями модели и реальными данными, решая проблему перестановки предсказаний без надзора.

📖

термины

Энкодер-декодер трансформер

Структура, в которой энкодер обрабатывает характеристики изображения для создания богатого контекстом представления, а декодер использует запросы объектов для декодирования этого представления в окончательные предсказания рамок и классов.

📖

термины

Многоголовое многошкальное внимание (MSA)

Механизм внимания, который работает на объединенных характеристиках нескольких уровней карты характеристик, позволяя модели одновременно захватывать локальную и глобальную информацию для лучшего обнаружения объектов различных размеров.

📖

термины

DETR-ResNet

Вариант DETR, который использует сверточную нейронную сеть ResNet в качестве основного экстрактора характеристик, объединяя мощь CNN для извлечения характеристик с глобальным рассуждением трансформеров.

📖

термины

Mask2Former

Унифицированная архитектура для панорамной, инстансной и семантической сегментации, которая маскирует области интереса и предсказывает маски непосредственно используя трансформеры, превосходя предыдущие подходы в точности и простоте.

📖

термины

Позиционные эмбеддинги

Векторы, добавляемые к признакам изображения для предоставления пространственной информации трансформеру, необходимые для того, чтобы модель понимала геометрию сцены и правильно локализовала объекты.

📖

термины

Условный DETR

Улучшение DETR, которое ускоряет сходимость, обусловливая запросы объектов содержимым изображения, что позволяет лучшую специализацию запросов и более точные предсказания.

📖

термины

Деформируемый DETR

Вариант DETR, который интегрирует деформируемые модули внимания для концентрации на небольшом наборе ключевых точек, значительно улучшая скорость сходимости и производительность, особенно для малых объектов.

📖

термины

Разреженный R-CNN

Полностью разреженный подход к обнаружению, который использует фиксированный набор обучаемых предложенных рамок и каскад трансформеров для уточнения предсказаний, устраняя потребность в эвристиках, таких как якоря или NMS.

📖

термины

Запрос к вниманию

Механизм, при котором запросы объектов направляют внимание модели к релевантным областям изображения, в отличие от глобального внимания, что повышает эффективность и специализацию предсказаний.

📖

термины

DINO (DETR с улучшенными денойзинговыми якорными рамками)

Передовая модель, которая объединяет улучшенные денойзинговые якорные рамки с архитектурой трансформера, достигая передовой производительности на тестах обнаружения без необходимости в NMS.

📖

термины

Фокальная потеря для трансформеров

Функция потерь, разработанная для решения проблемы медленной сходимости моделей DETR путем концентрации на сложных примерах и уменьшения вклада легко классифицируемых примеров.

📖

термины

Паноптическая сегментация с помощью трансформера

Применение архитектур трансформеров к унифицированной задаче паноптической сегментации, предсказывающей одновременно семантические маски для объектов и фона с помощью одной сквозной модели.

📖

термины

Mamba-DETR

Архитектура обнаружения, которая заменяет механизмы внимания на блоки пространственных состояний (State Space Blocks), вдохновленные Mamba, предлагающая линейную сложность и конкурентоспособную производительность для обнаружения объектов в реальном времени.

Глоссарий ИИ

DETR (DEtection TRansformer)

Двудольный трансформер

Запросы объектов (Object Queries)

Потеря двудольного сопоставления (Bipartite Matching Loss)

Энкодер-декодер трансформер

Многоголовое многошкальное внимание (MSA)

DETR-ResNet

Mask2Former

Позиционные эмбеддинги

Условный DETR

Деформируемый DETR

Разреженный R-CNN

Запрос к вниманию

DINO (DETR с улучшенными денойзинговыми якорными рамками)

Фокальная потеря для трансформеров

Паноптическая сегментация с помощью трансформера

Mamba-DETR

Результаты не найдены