- Offre de nouvelles capacités de vision-langage similaires à celles présentées dans GPT-4
- Décrit les images en détail, explique comment cuisiner à partir d’une photo de plat, identifie des problèmes, crée des slogans publicitaires, ou rédige des histoires et des poèmes inspirés par une image
- Montre d’excellentes performances en reliant simplement BLIP-2 et Vicuna à l’aide d’une seule couche de projection
- Entraîné en 2 étapes
- 5 millions de paires image-texte entraînées pendant 10 heures sur 4 A100. À cette étape seule, Vicuna comprend déjà les images, mais les capacités de génération sont fortement affectées
- Pour résoudre ce problème et améliorer l’utilisabilité, une nouvelle méthode est proposée pour générer des paires image-texte de haute qualité en utilisant conjointement le modèle lui-même et ChatGPT
- Sur cette base, un petit jeu de données de haute qualité a été créé à petite échelle (3 500 paires au total)
- Lors de la 2e étape de fine-tuning, ce petit jeu de données est appris avec des modèles conversationnels afin d’améliorer la fiabilité de la génération et l’utilisabilité globale
- Fait remarquable, cette étape est très efficace en calcul et ne prend que 7 minutes sur un seul A100
Aucun commentaire pour le moment.