2 points par GN⁺ 2024-07-11 | 1 commentaires | Partager sur WhatsApp

Les modèles vision-langage ne réussissent pas bien les tâches visuelles

Résumé

  • Les modèles vision-langage (VLM) affichent de bonnes performances dans les applications de traitement image-texte, mais échouent sur 7 tâches visuelles très faciles pour les humains.
  • Cette étude montre que les capacités de perception visuelle des VLM sont limitées.

Task 1: Calcul des intersections de lignes

  • Image : génération de 150 graphiques 2D composés de deux segments de droite qui se croisent
  • Question : "Combien de fois les lignes bleue et rouge se croisent-elles ?"
  • Résultat : les modèles ne parviennent pas à calculer correctement les points d'intersection

Task 2: Deux cercles

  • Image : génération de 672 images contenant deux cercles de tailles, distances et orientations variées
  • Question : "Les deux cercles sont-ils en contact ?" ou "Les deux cercles se chevauchent-ils ?"
  • Résultat : les modèles échouent de manière systématique lorsque la distance est faible

Task 3: Lettres entourées d'un cercle

  • Image : génération d'images où chaque lettre d'un mot est entourée d'un cercle rouge
  • Question : "Quelle lettre est entourée d'un cercle ?"
  • Résultat : les modèles ont tendance à prédire des lettres adjacentes

Task 4: Comptage de formes superposées

  • Image : génération d'images contenant des cercles et des pentagones superposés, comme dans le logo olympique
  • Question : "Combien y a-t-il de formes dans l'image ?"
  • Résultat : les modèles ne parviennent pas à compter correctement le nombre de formes

Task 5: Comptage de rectangles imbriqués

  • Image : génération d'images contenant des rectangles imbriqués
  • Question : "Combien y a-t-il de rectangles au total dans l'image ?"
  • Résultat : les modèles ne parviennent pas à compter correctement le nombre de rectangles imbriqués

Task 6: Comptage des lignes et des colonnes d'une grille

  • Image : génération d'images contenant des grilles avec texte et des grilles vides
  • Question : "Combien la grille comporte-t-elle de lignes et de colonnes ?"
  • Résultat : les performances s'améliorent sur les grilles contenant du texte, mais les modèles échouent sur les grilles vides

Task 7: Suivi d'un chemin d'une seule couleur

  • Image : génération d'images contenant des plans de métro
  • Question : "Combien existe-t-il de chemins d'une seule couleur allant de A à C ?"
  • Résultat : les modèles ne parviennent pas à calculer correctement le nombre de chemins

Le résumé de GN⁺

  • Cette étude montre que les capacités de perception visuelle des modèles vision-langage (VLM) sont limitées.
  • Les VLM échouent de manière systématique sur des tâches visuelles faciles pour les humains.
  • Cela suggère qu'il faut poursuivre les recherches pour améliorer les capacités de perception visuelle des VLM.
  • Parmi les autres projets aux fonctionnalités similaires figurent OpenAI GPT-4 et Google Gemini-1.5 Pro.

1 commentaires

 
GN⁺ 2024-07-11
Avis Hacker News
  • Je pense que la conclusion est erronée

    • La métaphore de la « vision d’une personne myope » est exagérée
    • Il existe des exemples où GPT-4v réussit bien des tâches visuelles détaillées
    • Les grands modèles de GenAI sont performants lorsqu’ils ont appris sur beaucoup de données
    • Les preuves présentées par les auteurs sont insuffisantes
  • Partage d’expérience à propos des Captcha

    • GPT-4o a aidé à résoudre un problème de porte de garage
    • Il a identifié une mauvaise installation sur une photo, mais a manqué un écrou absent
  • Problèmes des VLM pour compter les objets et reconnaître les relations spatiales

    • Le Set of Marks de Microsoft peut être utile
    • Le fait de fournir des labels « prononçables » contribue à améliorer les performances
  • Critique des performances des modèles SOTA actuels

    • Ils échouent sur des tâches faciles pour les humains
    • Exemple : compter des intersections de lignes, détecter des chevauchements de cercles, etc.
  • Avis sur la manière dont les VLM traitent les images

    • Les humains peuvent se concentrer sur des zones d’intérêt, alors que les VLM traitent l’image entière à la même résolution
    • Interrogation sur la manière d’entraîner les modèles avec des données d’interaction
  • Je pense que le titre « Vision language models are blind » est exagéré

    • La manière dont les VLM traitent les entrées d’image est différente
    • Ils peuvent rater des détails en basse résolution
    • Par exemple, la réponse de Sonnet 3.5 était globalement correcte, mais comportait quelques erreurs
  • Compréhension de la manière dont les modèles interprètent les données d’entrée

    • Les LLM et les modèles multimodaux manquent de capacités de raisonnement concret
    • Exemple : ChatGPT résume bien un texte, mais compte mal le nombre de mots
    • Le problème central du développement de l’AGI est de combiner intelligence de haut niveau et de bas niveau
  • Avis sur le niveau de GPT-4

    • Citation de la déclaration de Mira Murati selon laquelle GPT-4 est d’un niveau lycée
  • L’IA a du mal à lire l’image d’un emploi du temps scolaire

    • Lorsqu’on lui demande une date précise, elle en trouve correctement certaines, mais en rate d’autres ou en invente de nouvelles
    • Quand on réduit le bruit, les performances s’améliorent légèrement, mais cela reste peu fiable