QA Multimodal
Génération de Réponse Conditionnelle
Processus où un modèle de langue génère une réponse textuelle dont le contenu est conditionné et guidé par les informations extraites d'une modalité non textuelle comme une image.
← Retour