DeiT (Data-efficient Image Transformers)

Variante de Vision Transformer treinada com estratégias de destilação de conhecimento para alcançar desempenhos competitivos com menos dados de treinamento. DeiT introduz um token de destilação adicional que aprende a partir das previsões de um professor CNN, reduzindo assim a lacuna de desempenho com abordagens baseadas em grandes volumes de dados.

← Voltar