Interprétabilité multimodale
Grounding Visuo-Linguistique
Processus d'ancrage des symboles linguistiques (mots, phrases) à des entités ou des concepts concrets dans les données visuelles, fondamental pour que les explications d'un modèle reliant texte et image soient sémantiquement correctes et compréhensibles.
← Retour