- Une architecture vision-langage capable d’analyser des images haute résolution en les divisant en plusieurs petites zones, permettant une compréhension fine et un raisonnement détaillé
- Publication de deux modèles open source : Llama-3-8b-Dragonfly-v1 (domaine général) et Llama-3-8b-Dragonfly-Med-v1 (domaine médical)
- Llama-3-8b-Dragonfly-v1 a été entraîné sur 5,5 millions de paires image-instruction, et Llama-3-8b-Dragonfly-Med-v1 a ensuite été affiné avec 1,4 million d’images médicales et leurs instructions
- Dragonfly affiche d’excellentes performances sur des benchmarks comme le raisonnement visuel de bon sens et le captioning d’images
- Dragonfly-Med surpasse des modèles existants comme Med-Gemini dans la compréhension d’images médicales
Architecture de Dragonfly
-
Encodage visuel multi-résolution (Multi-resolution Visual Encoding) :
- Traite les images en basse, moyenne et haute résolution
- Chaque image est découpée en plusieurs sous-images selon la résolution, puis encodée en tokens visuels
- Les tokens encodés sont projetés dans le language space puis concaténés en une séquence fournie en entrée au LLM
- Cela permet de traiter efficacement de très grandes images et d’augmenter la granularité du traitement des données visuelles
-
Zoom-in Patch Selection :
- Une approche sélective pour se concentrer sur les détails visuels importants dans les images haute résolution
- Utilise une nouvelle stratégie de zoom-in patch selection qui ne retient que les sous-images haute résolution les plus importantes
- Ne sélectionne que les patches les plus pertinents en comparant les summary embeddings des sous-images de moyenne et haute résolution
- Cela réduit la redondance et améliore à la fois l’efficacité globale du modèle et sa compréhension des zones détaillées en se concentrant sur les contenus essentiels
-
Ces deux stratégies permettent de mieux se focaliser sur les détails des régions de l’image et d’améliorer les capacités de raisonnement de bon sens.
-
Bien qu’optimisé pour la capture de détails, le modèle obtient aussi de bonnes performances zero-shot sur des benchmarks généraux de compréhension d’image comme la VQA et le captioning d’images.
Évaluation des performances du modèle Dragonfly
- Évalué sur 5 benchmarks vision-langage : AI2D, ScienceQA, MMMU, MMVet et POPE
- AI2D, ScienceQA : évaluation du raisonnement visuel de bon sens dans le domaine scientifique
- MMMU, MMVet : évaluation globale des capacités vision-langage
- POPE : évaluation des hallucinations au niveau des objets
- Montre des performances solides, comparables à celles d’autres modèles vision-langage bien connus
Performances de Dragonfly-Med
- Une version de Dragonfly entraînée en plus sur 1,4 million d’images médicales et d’instructions, en collaboration avec Stanford Medicine
- Dépasse les performances de modèles existants comme Med-Gemini sur des benchmarks de question-réponse visuelle tels que VQA-RAD, SLAKE et Path-VQA
- Affiche également des performances proches du SOTA sur des benchmarks de captioning d’images médicales comme IU X-Ray, Peir Gross, ROCO et MIMIC CXR
Prochaines étapes
- Prévoit d’explorer une nouvelle architecture et de nouvelles stratégies d’encodage visuel avec LLaMA3-8B-Instruct comme backbone
- Vise à élargir l’application à davantage de domaines scientifiques afin de contribuer à la recherche multimodale open source
Aucun commentaire pour le moment.