15 points par xguru 2023-04-18 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Offre de nouvelles capacités de vision-langage similaires à celles présentées dans GPT-4
    • Décrit les images en détail, explique comment cuisiner à partir d’une photo de plat, identifie des problèmes, crée des slogans publicitaires, ou rédige des histoires et des poèmes inspirés par une image
  • Montre d’excellentes performances en reliant simplement BLIP-2 et Vicuna à l’aide d’une seule couche de projection
  • Entraîné en 2 étapes
    • 5 millions de paires image-texte entraînées pendant 10 heures sur 4 A100. À cette étape seule, Vicuna comprend déjà les images, mais les capacités de génération sont fortement affectées
    • Pour résoudre ce problème et améliorer l’utilisabilité, une nouvelle méthode est proposée pour générer des paires image-texte de haute qualité en utilisant conjointement le modèle lui-même et ChatGPT
    • Sur cette base, un petit jeu de données de haute qualité a été créé à petite échelle (3 500 paires au total)
    • Lors de la 2e étape de fine-tuning, ce petit jeu de données est appris avec des modèles conversationnels afin d’améliorer la fiabilité de la génération et l’utilisabilité globale
    • Fait remarquable, cette étape est très efficace en calcul et ne prend que 7 minutes sur un seul A100

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.