Transformadores de Visión (ViT)
Preentrenamiento en Conjuntos de Datos a Gran Escala
Fase inicial de entrenamiento de un ViT en corpus masivos como ImageNet-21k o JFT-300M, esencial para superar su bajo sesgo inductivo y lograr buenos resultados.
← Volver