OpenFlamingo - framework open source pour entraîner/évaluer des grands modèles multimodaux (LMM)

xguru · 2023-03-31T10:15:01+09:00

Vise à développer des systèmes multimodaux capables de traiter conjointement des entrées image/texte, comme GPT-4 Pour cela, implémente en open source le modèle Flamingo de DeepMind, un LMM (Large Multimodal Model) capable de traiter et de raisonner sur des images/vidéos/textes Ce que contient la première version Un framework Python pour entraîner des LMM dans le style de Flamingo Un jeu de données multimodal à grande échelle avec images/textes entrelacés Un benchmark d’évaluation de l’apprentissage in-context pour les tâches vision-langage Le modèle OpenFlamingo-9B basé sur LLaMA Comme le jeu de données d’entraînement de Flamingo n’est pas public, l’entraînement a été effectué à partir du jeu de données Multimodal C4 de LAION-2B ainsi que d’un échantillon de 5 millions d’exemples extrait d’un ensemble de 10 millions d’échantillons

(laion.ai)

11 points par xguru 2023-03-31 | 1 commentaires | Partager sur WhatsApp

Vise à développer des systèmes multimodaux capables de traiter conjointement des entrées image/texte, comme GPT-4
Pour cela, implémente en open source le modèle Flamingo de DeepMind, un LMM (Large Multimodal Model) capable de traiter et de raisonner sur des images/vidéos/textes
Ce que contient la première version
- Un framework Python pour entraîner des LMM dans le style de Flamingo
- Un jeu de données multimodal à grande échelle avec images/textes entrelacés
- Un benchmark d’évaluation de l’apprentissage in-context pour les tâches vision-langage
- Le modèle OpenFlamingo-9B basé sur LLaMA
Comme le jeu de données d’entraînement de Flamingo n’est pas public, l’entraînement a été effectué à partir du jeu de données Multimodal C4 de LAION-2B ainsi que d’un échantillon de 5 millions d’exemples extrait d’un ensemble de 10 millions d’échantillons

1 commentaires

xguru 2023-03-31

Flamingo : modèle de langage visuel pour l’apprentissage few-shot

OpenFlamingo - framework open source pour entraîner/évaluer des grands modèles multimodaux (LMM)

À lire aussi

1 commentaires