Квантизация и сжатие
Структурированная разреженность N:M
Схема прореживания, где для каждого блока из M весов сохраняется ровно N весов (N < M). Этот регулярный шаблон разработан для эффективного ускорения специализированными матричными вычислительными блоками (Tensor Cores) современных GPU.
← Назад