Cuantificación y Compresión
Esparsidad Estructurada N:M
Esquema de poda donde, para cada bloque de M pesos, exactamente N pesos se conservan (N < M). Este patrón regular está diseñado para ser acelerado eficientemente por las unidades de cálculo matricial especializadas (Tensor Cores) de las GPU modernas.
← Volver