6 points par xguru 2023-06-14 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Pour obtenir de bonnes performances en zéro shot avec les LLM, un jeu d’instructions de haute qualité est indispensable, et il en va de même pour les VLM (modèles vision-langage)
  • Mais les jeux d’instructions vision-langage actuels sont très limités en termes de volume, de diversité et de créativité
  • Présentation de MIMIC-IT (MultI-Modal In-Context Instruction Tuning)
  • Un jeu de données composé de 2,2 millions d’instructions uniques issues d’images et de vidéos, ainsi que de 2,8 millions de paires multimodales instruction-réponse
  • Otter est un VLM de grande taille entraîné sur le jeu de données MIMIC-IT
  • Prise en charge de 8 langues : anglais, chinois, coréen, japonais, allemand, français, espagnol et arabe

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.