2 points par GN⁺ 2023-12-24 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Présentation du modèle Ferret

  • Le modèle Ferret permet le référencement et le positionnement précis avec un vocabulaire fin et ouvert grâce à une représentation hybride des régions et un échantillonneur visuel à conscience spatiale.
  • Le jeu de données GRIT (~1,1 M) est un jeu de données de réglage par instructions à grande échelle, hiérarchique et robuste.
  • Ferret-Bench est un benchmark d’évaluation multimodal qui exige simultanément le référencement/le positionnement, la sémantique, les connaissances et le raisonnement.

Publication du modèle Ferret

  • [12/14] Publication des checkpoints 7B et 13B.
  • [10/30] Publication du modèle FERRET et du code de Ferret-Bench.
  • Les données et le code sont réservés à un usage de recherche et suivent les accords de licence de LLaMA, Vicuna et GPT-4.
  • Le jeu de données est sous licence CC BY NC 4.0 (usage non commercial uniquement), et les modèles entraînés avec ce jeu de données ne peuvent pas être utilisés en dehors d’un objectif de recherche.

Installation et utilisation

  • Cloner le dépôt FERRET, se déplacer dans le dossier correspondant, puis installer les packages nécessaires.
  • L’installation de packages supplémentaires est nécessaire pour certains cas d’entraînement spécifiques.

Entraînement

  • FERRET a été entraîné sur 8 GPU A100 (80 Go de mémoire chacun).
  • En cas d’entraînement avec moins de GPU, il faut réduire per_device_train_batch_size et augmenter gradient_accumulation_steps.
  • Il faut préparer le checkpoint Vicuna et le projecteur de LLaVA.
  • Un script d’entraînement est fourni.

Évaluation

  • Voir la documentation pour les détails.

Checkpoints

  • Extraire le delta entre le modèle préentraîné et Vicuna.
  • Télécharger les poids de Vicuna, puis télécharger et appliquer le décalage de poids préparé.

Démo

  • Après l’entraînement de FERRET, exécuter la démo en local avec le checkpoint.
  • Utilisation de l’interface web Gradio.
  • Exécuter successivement le contrôleur, le serveur web Gradio et le worker du modèle.

Citation

  • Si Ferret vous est utile, citez-le avec le BibTeX suivant.

Remerciements

  • LLaVA : base de code de référence.
  • Vicuna : base de code du LLM.

L’avis de GN⁺

  • Technologie innovante : le modèle Ferret présente une technologie innovante qui permet un référencement et un positionnement précis à l’aide d’un vocabulaire varié.
  • Importance pour la recherche : ce modèle et ce jeu de données constituent des ressources importantes susceptibles d’accélérer la recherche sur les tâches de référencement et de positionnement dans le domaine de l’IA.
  • Nombreuses applications possibles : cette technologie peut être utilisée dans diverses applications combinant image et texte, ce qui pourrait faire progresser d’un cran la compréhension visuelle et l’interaction en IA.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.