MiniGPT-4 : amélioration de la compréhension vision-langage à l’aide de LLM avancés

xguru · 2023-04-18T11:21:01+09:00

Offre de nouvelles capacités de vision-langage similaires à celles présentées dans GPT-4 Décrit les images en détail, explique comment cuisiner à partir d’une photo de plat, identifie des problèmes, crée des slogans publicitaires, ou rédige des histoires et des poèmes inspirés par une image Montre d’excellentes performances en reliant simplement BLIP-2 et Vicuna à l’aide d’une seule couche de projection Entraîné en 2 étapes 5 millions de paires image-texte entraînées pendant 10 heures sur 4 A100. À cette étape seule, Vicuna comprend déjà les images, mais les capacités de génération sont fortement affectées Pour résoudre ce problème et améliorer l’utilisabilité, une nouvelle méthode est proposée pour générer des paires image-texte de haute qualité en utilisant conjointement le modèle lui-même et ChatGPT Sur cette base, un petit jeu de données de haute qualité a été créé à petite échelle (3 500 paires au total) Lors de la 2e étape de fine-tuning, ce petit jeu de données est appris avec des modèles conversationnels afin d’améliorer la fiabilité de la génération et l’utilisabilité globale Fait remarquable, cette étape est très efficace en calcul et ne prend que 7 minutes sur un seul A100

Offre de nouvelles capacités de vision-langage similaires à celles présentées dans GPT-4
- Décrit les images en détail, explique comment cuisiner à partir d’une photo de plat, identifie des problèmes, crée des slogans publicitaires, ou rédige des histoires et des poèmes inspirés par une image
Montre d’excellentes performances en reliant simplement BLIP-2 et Vicuna à l’aide d’une seule couche de projection
Entraîné en 2 étapes
- 5 millions de paires image-texte entraînées pendant 10 heures sur 4 A100. À cette étape seule, Vicuna comprend déjà les images, mais les capacités de génération sont fortement affectées
- Pour résoudre ce problème et améliorer l’utilisabilité, une nouvelle méthode est proposée pour générer des paires image-texte de haute qualité en utilisant conjointement le modèle lui-même et ChatGPT
- Sur cette base, un petit jeu de données de haute qualité a été créé à petite échelle (3 500 paires au total)
- Lors de la 2e étape de fine-tuning, ce petit jeu de données est appris avec des modèles conversationnels afin d’améliorer la fiabilité de la génération et l’utilisabilité globale
- Fait remarquable, cette étape est très efficace en calcul et ne prend que 7 minutes sur un seul A100

MiniGPT-4 : amélioration de la compréhension vision-langage à l’aide de LLM avancés

À lire aussi

Aucun commentaire pour le moment.