Les modèles vision-langage ne réussissent pas bien les tâches visuelles
Résumé
- Les modèles vision-langage (VLM) affichent de bonnes performances dans les applications de traitement image-texte, mais échouent sur 7 tâches visuelles très faciles pour les humains.
- Cette étude montre que les capacités de perception visuelle des VLM sont limitées.
Task 1: Calcul des intersections de lignes
- Image : génération de 150 graphiques 2D composés de deux segments de droite qui se croisent
- Question : "Combien de fois les lignes bleue et rouge se croisent-elles ?"
- Résultat : les modèles ne parviennent pas à calculer correctement les points d'intersection
Task 2: Deux cercles
- Image : génération de 672 images contenant deux cercles de tailles, distances et orientations variées
- Question : "Les deux cercles sont-ils en contact ?" ou "Les deux cercles se chevauchent-ils ?"
- Résultat : les modèles échouent de manière systématique lorsque la distance est faible
Task 3: Lettres entourées d'un cercle
- Image : génération d'images où chaque lettre d'un mot est entourée d'un cercle rouge
- Question : "Quelle lettre est entourée d'un cercle ?"
- Résultat : les modèles ont tendance à prédire des lettres adjacentes
Task 4: Comptage de formes superposées
- Image : génération d'images contenant des cercles et des pentagones superposés, comme dans le logo olympique
- Question : "Combien y a-t-il de formes dans l'image ?"
- Résultat : les modèles ne parviennent pas à compter correctement le nombre de formes
Task 5: Comptage de rectangles imbriqués
- Image : génération d'images contenant des rectangles imbriqués
- Question : "Combien y a-t-il de rectangles au total dans l'image ?"
- Résultat : les modèles ne parviennent pas à compter correctement le nombre de rectangles imbriqués
Task 6: Comptage des lignes et des colonnes d'une grille
- Image : génération d'images contenant des grilles avec texte et des grilles vides
- Question : "Combien la grille comporte-t-elle de lignes et de colonnes ?"
- Résultat : les performances s'améliorent sur les grilles contenant du texte, mais les modèles échouent sur les grilles vides
Task 7: Suivi d'un chemin d'une seule couleur
- Image : génération d'images contenant des plans de métro
- Question : "Combien existe-t-il de chemins d'une seule couleur allant de A à C ?"
- Résultat : les modèles ne parviennent pas à calculer correctement le nombre de chemins
Le résumé de GN⁺
- Cette étude montre que les capacités de perception visuelle des modèles vision-langage (VLM) sont limitées.
- Les VLM échouent de manière systématique sur des tâches visuelles faciles pour les humains.
- Cela suggère qu'il faut poursuivre les recherches pour améliorer les capacités de perception visuelle des VLM.
- Parmi les autres projets aux fonctionnalités similaires figurent OpenAI GPT-4 et Google Gemini-1.5 Pro.
1 commentaires
Avis Hacker News
Je pense que la conclusion est erronée
Partage d’expérience à propos des Captcha
Problèmes des VLM pour compter les objets et reconnaître les relations spatiales
Critique des performances des modèles SOTA actuels
Avis sur la manière dont les VLM traitent les images
Je pense que le titre « Vision language models are blind » est exagéré
Compréhension de la manière dont les modèles interprètent les données d’entrée
Avis sur le niveau de GPT-4
L’IA a du mal à lire l’image d’un emploi du temps scolaire