4 points par xguru 2024-06-10 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Une architecture vision-langage capable d’analyser des images haute résolution en les divisant en plusieurs petites zones, permettant une compréhension fine et un raisonnement détaillé
  • Publication de deux modèles open source : Llama-3-8b-Dragonfly-v1 (domaine général) et Llama-3-8b-Dragonfly-Med-v1 (domaine médical)
  • Llama-3-8b-Dragonfly-v1 a été entraîné sur 5,5 millions de paires image-instruction, et Llama-3-8b-Dragonfly-Med-v1 a ensuite été affiné avec 1,4 million d’images médicales et leurs instructions
  • Dragonfly affiche d’excellentes performances sur des benchmarks comme le raisonnement visuel de bon sens et le captioning d’images
  • Dragonfly-Med surpasse des modèles existants comme Med-Gemini dans la compréhension d’images médicales

Architecture de Dragonfly

  • Encodage visuel multi-résolution (Multi-resolution Visual Encoding) :

    • Traite les images en basse, moyenne et haute résolution
    • Chaque image est découpée en plusieurs sous-images selon la résolution, puis encodée en tokens visuels
    • Les tokens encodés sont projetés dans le language space puis concaténés en une séquence fournie en entrée au LLM
    • Cela permet de traiter efficacement de très grandes images et d’augmenter la granularité du traitement des données visuelles
  • Zoom-in Patch Selection :

    • Une approche sélective pour se concentrer sur les détails visuels importants dans les images haute résolution
    • Utilise une nouvelle stratégie de zoom-in patch selection qui ne retient que les sous-images haute résolution les plus importantes
    • Ne sélectionne que les patches les plus pertinents en comparant les summary embeddings des sous-images de moyenne et haute résolution
    • Cela réduit la redondance et améliore à la fois l’efficacité globale du modèle et sa compréhension des zones détaillées en se concentrant sur les contenus essentiels
  • Ces deux stratégies permettent de mieux se focaliser sur les détails des régions de l’image et d’améliorer les capacités de raisonnement de bon sens.

  • Bien qu’optimisé pour la capture de détails, le modèle obtient aussi de bonnes performances zero-shot sur des benchmarks généraux de compréhension d’image comme la VQA et le captioning d’images.

Évaluation des performances du modèle Dragonfly

  • Évalué sur 5 benchmarks vision-langage : AI2D, ScienceQA, MMMU, MMVet et POPE
    • AI2D, ScienceQA : évaluation du raisonnement visuel de bon sens dans le domaine scientifique
    • MMMU, MMVet : évaluation globale des capacités vision-langage
    • POPE : évaluation des hallucinations au niveau des objets
  • Montre des performances solides, comparables à celles d’autres modèles vision-langage bien connus

Performances de Dragonfly-Med

  • Une version de Dragonfly entraînée en plus sur 1,4 million d’images médicales et d’instructions, en collaboration avec Stanford Medicine
  • Dépasse les performances de modèles existants comme Med-Gemini sur des benchmarks de question-réponse visuelle tels que VQA-RAD, SLAKE et Path-VQA
  • Affiche également des performances proches du SOTA sur des benchmarks de captioning d’images médicales comme IU X-Ray, Peir Gross, ROCO et MIMIC CXR

Prochaines étapes

  • Prévoit d’explorer une nouvelle architecture et de nouvelles stratégies d’encodage visuel avec LLaMA3-8B-Instruct comme backbone
  • Vise à élargir l’application à davantage de domaines scientifiques afin de contribuer à la recherche multimodale open source

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.