- Vise à développer des systèmes multimodaux capables de traiter conjointement des entrées image/texte, comme GPT-4
- Pour cela, implémente en open source le modèle Flamingo de DeepMind, un LMM (Large Multimodal Model) capable de traiter et de raisonner sur des images/vidéos/textes
- Ce que contient la première version
- Un framework Python pour entraîner des LMM dans le style de Flamingo
- Un jeu de données multimodal à grande échelle avec images/textes entrelacés
- Un benchmark d’évaluation de l’apprentissage in-context pour les tâches vision-langage
- Le modèle OpenFlamingo-9B basé sur LLaMA
- Comme le jeu de données d’entraînement de Flamingo n’est pas public, l’entraînement a été effectué à partir du jeu de données Multimodal C4 de LAION-2B ainsi que d’un échantillon de 5 millions d’exemples extrait d’un ensemble de 10 millions d’échantillons
1 commentaires
Flamingo : modèle de langage visuel pour l’apprentissage few-shot