9 points par xguru 2023-03-02 | 1 commentaires | Partager sur WhatsApp
  • Un Multimodal Large Language Model (MLLM) capable de reconnaître des formats généraux, d’apprendre en contexte (few-shot) et de suivre des instructions (zero-shot)
  • Un modèle entraîné sur du texte, des images et des paires image-légende, qui montre des performances impressionnantes dans les tâches suivantes
    1. compréhension et génération du langage, ainsi que NLP ne nécessitant pas d’OCR (reconnaissance directe à partir d’images de documents)
    2. dialogue multimodal, génération de légendes d’images, réponses visuelles aux questions
    3. tâches de vision telles que la reconnaissance d’images avec descriptions incluses (définition de la classification via des instructions textuelles)
  • Les MLLM peuvent tirer parti du transfert intermodal (transfert de connaissances du langage vers le multimodal, et du multimodal vers le langage)

1 commentaires