Vision Transformers (ViT)
Transformer Encoder
Bloco fundamental composto por camadas de self-attention e redes feed-forward alternando com normalização e conexões residuais.
← VoltarBloco fundamental composto por camadas de self-attention e redes feed-forward alternando com normalização e conexões residuais.
← Voltar