11 points par xguru 2023-03-31 | 1 commentaires | Partager sur WhatsApp
  • Vise à développer des systèmes multimodaux capables de traiter conjointement des entrées image/texte, comme GPT-4
  • Pour cela, implémente en open source le modèle Flamingo de DeepMind, un LMM (Large Multimodal Model) capable de traiter et de raisonner sur des images/vidéos/textes
  • Ce que contient la première version
    • Un framework Python pour entraîner des LMM dans le style de Flamingo
    • Un jeu de données multimodal à grande échelle avec images/textes entrelacés
    • Un benchmark d’évaluation de l’apprentissage in-context pour les tâches vision-langage
    • Le modèle OpenFlamingo-9B basé sur LLaMA
  • Comme le jeu de données d’entraînement de Flamingo n’est pas public, l’entraînement a été effectué à partir du jeu de données Multimodal C4 de LAION-2B ainsi que d’un échantillon de 5 millions d’exemples extrait d’un ensemble de 10 millions d’échantillons