Dragonfly - un grand modèle vision-langage avec zoom multi-résolution

xguru · 2024-06-10T10:10:02+09:00

Une architecture vision-langage capable d’analyser des images haute résolution en les divisant en plusieurs petites zones, permettant une compréhension fine et un raisonnement détaillé Publication de deux modèles open source : Llama-3-8b-Dragonfly-v1 (domaine général) et Llama-3-8b-Dragonfly-Med-v1 (domaine médical) Llama-3-8b-Dragonfly-v1 a été entraîné sur 5,5 millions de paires image-instruction, et Llama-3-8b-Dragonfly-Med-v1 a ensuite été affiné avec 1,4 million d’images médicales et leurs instructions Dragonfly affiche d’excellentes performances sur des benchmarks comme le raisonnement visuel de bon sens et le captioning d’images Dragonfly-Med surpasse des modèles existants comme Med-Gemini dans la compréhension d’images médicales Architecture de Dragonfly Encodage visuel multi-résolution (Multi-resolution Visual Encoding) : Traite les images en basse, moyenne et haute résolution Chaque image est découpée en plusieurs sous-images selon la résolution, puis encodée en tokens visuels Les tokens encodés sont projetés dans le language space puis concaténés en une séquence fournie en entrée au LLM Cela permet de traiter efficacement de très grandes images et d’augmenter la granularité du traitement des données visuelles Zoom-in Patch Selection : Une approche sélective pour se concentrer sur les détails visuels importants dans les images haute résolution Utilise une nouvelle stratégie de zoom-in patch selection qui ne retient que les sous-images haute résolution les plus importantes Ne sélectionne que les patches les plus pertinents en comparant les summary embeddings des sous-images de moyenne et haute résolution Cela réduit la redondance et améliore à la fois l’efficacité globale du modèle et sa compréhension des zones détaillées en se concentrant sur les contenus essentiels Ces deux stratégies permettent de mieux se focaliser sur les détails des régions de l’image et d’améliorer les capacités de raisonnement de bon sens. Bien qu’optimisé pour la capture de détails, le modèle obtient aussi de bonnes performances zero-shot sur des benchmarks généraux de compréhension d’image comme la VQA et le captioning d’images. Évaluation des performances du modèle Dragonfly Évalué sur 5 benchmarks vision-langage : AI2D, ScienceQA, MMMU, MMVet et POPE AI2D, ScienceQA : évaluation du raisonnement visuel de bon sens dans le domaine scientifique MMMU, MMVet : évaluation globale des capacités vision-langage POPE : évaluation des hallucinations au niveau des objets Montre des performances solides, comparables à celles d’autres modèles vision-langage bien connus Performances de Dragonfly-Med Une version de Dragonfly entraînée en plus sur 1,4 million d’images médicales et d’instructions, en collaboration avec Stanford Medicine Dépasse les performances de modèles existants comme Med-Gemini sur des benchmarks de question-réponse visuelle tels que VQA-RAD, SLAKE et Path-VQA Affiche également des performances proches du SOTA sur des benchmarks de captioning d’images médicales comme IU X-Ray, Peir Gross, ROCO et MIMIC CXR Prochaines étapes Prévoit d’explorer une nouvelle architecture et de nouvelles stratégies d’encodage visuel avec LLaMA3-8B-Instruct comme backbone Vise à élargir l’application à davantage de domaines scientifiques afin de contribuer à la recherche multimodale open source

(together.ai)

4 points par xguru 2024-06-10 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Une architecture vision-langage capable d’analyser des images haute résolution en les divisant en plusieurs petites zones, permettant une compréhension fine et un raisonnement détaillé
Publication de deux modèles open source : Llama-3-8b-Dragonfly-v1 (domaine général) et Llama-3-8b-Dragonfly-Med-v1 (domaine médical)
Llama-3-8b-Dragonfly-v1 a été entraîné sur 5,5 millions de paires image-instruction, et Llama-3-8b-Dragonfly-Med-v1 a ensuite été affiné avec 1,4 million d’images médicales et leurs instructions
Dragonfly affiche d’excellentes performances sur des benchmarks comme le raisonnement visuel de bon sens et le captioning d’images
Dragonfly-Med surpasse des modèles existants comme Med-Gemini dans la compréhension d’images médicales

Architecture de Dragonfly

Encodage visuel multi-résolution (Multi-resolution Visual Encoding) :
- Traite les images en basse, moyenne et haute résolution
- Chaque image est découpée en plusieurs sous-images selon la résolution, puis encodée en tokens visuels
- Les tokens encodés sont projetés dans le language space puis concaténés en une séquence fournie en entrée au LLM
- Cela permet de traiter efficacement de très grandes images et d’augmenter la granularité du traitement des données visuelles
Zoom-in Patch Selection :
- Une approche sélective pour se concentrer sur les détails visuels importants dans les images haute résolution
- Utilise une nouvelle stratégie de zoom-in patch selection qui ne retient que les sous-images haute résolution les plus importantes
- Ne sélectionne que les patches les plus pertinents en comparant les summary embeddings des sous-images de moyenne et haute résolution
- Cela réduit la redondance et améliore à la fois l’efficacité globale du modèle et sa compréhension des zones détaillées en se concentrant sur les contenus essentiels
Ces deux stratégies permettent de mieux se focaliser sur les détails des régions de l’image et d’améliorer les capacités de raisonnement de bon sens.
Bien qu’optimisé pour la capture de détails, le modèle obtient aussi de bonnes performances zero-shot sur des benchmarks généraux de compréhension d’image comme la VQA et le captioning d’images.

Évaluation des performances du modèle Dragonfly

Évalué sur 5 benchmarks vision-langage : AI2D, ScienceQA, MMMU, MMVet et POPE
- AI2D, ScienceQA : évaluation du raisonnement visuel de bon sens dans le domaine scientifique
- MMMU, MMVet : évaluation globale des capacités vision-langage
- POPE : évaluation des hallucinations au niveau des objets
Montre des performances solides, comparables à celles d’autres modèles vision-langage bien connus

Performances de Dragonfly-Med

Une version de Dragonfly entraînée en plus sur 1,4 million d’images médicales et d’instructions, en collaboration avec Stanford Medicine
Dépasse les performances de modèles existants comme Med-Gemini sur des benchmarks de question-réponse visuelle tels que VQA-RAD, SLAKE et Path-VQA
Affiche également des performances proches du SOTA sur des benchmarks de captioning d’images médicales comme IU X-Ray, Peir Gross, ROCO et MIMIC CXR

Prochaines étapes

Prévoit d’explorer une nouvelle architecture et de nouvelles stratégies d’encodage visuel avec LLaMA3-8B-Instruct comme backbone
Vise à élargir l’application à davantage de domaines scientifiques afin de contribuer à la recherche multimodale open source