- Un Multimodal Large Language Model (MLLM) capable de reconnaître des formats généraux, d’apprendre en contexte (few-shot) et de suivre des instructions (zero-shot)
- Un modèle entraîné sur du texte, des images et des paires image-légende, qui montre des performances impressionnantes dans les tâches suivantes
- compréhension et génération du langage, ainsi que NLP ne nécessitant pas d’OCR (reconnaissance directe à partir d’images de documents)
- dialogue multimodal, génération de légendes d’images, réponses visuelles aux questions
- tâches de vision telles que la reconnaissance d’images avec descriptions incluses (définition de la classification via des instructions textuelles)
- Les MLLM peuvent tirer parti du transfert intermodal (transfert de connaissances du langage vers le multimodal, et du multimodal vers le langage)
1 commentaires
Dépôt : https://github.com/microsoft/unilm