- Pour obtenir de bonnes performances en zéro shot avec les LLM, un jeu d’instructions de haute qualité est indispensable, et il en va de même pour les VLM (modèles vision-langage)
- Mais les jeux d’instructions vision-langage actuels sont très limités en termes de volume, de diversité et de créativité
- Présentation de MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
- Un jeu de données composé de 2,2 millions d’instructions uniques issues d’images et de vidéos, ainsi que de 2,8 millions de paires multimodales instruction-réponse
- Otter est un VLM de grande taille entraîné sur le jeu de données MIMIC-IT
- Prise en charge de 8 langues : anglais, chinois, coréen, japonais, allemand, français, espagnol et arabe
Aucun commentaire pour le moment.