Vision Transformers (ViT)
Autoencoder Mascarado (MAE)
Abordagem de auto-supervisão para ViT onde patches aleatórios da imagem são mascarados (até 75%) e o modelo aprende a reconstruí-los, revelando capacidades de aprendizado surpreendentes.
← Voltar