Modelos Multimodais
Tokenização Visual
Técnica que divide uma imagem em uma sequência de patches ou tokens discretos, frequentemente através de uma rede neural como um Vision Transformer (ViT), para torná-la compatível com a arquitetura dos transformadores textuais.
← Voltar