Les limites visuelles des modèles vision-langage

(vlmsareblind.github.io)

2 points par GN⁺ 2024-07-11 | 1 commentaires | Partager sur WhatsApp

Les modèles vision-langage (VLM) comme GPT-4o, Gemini-1.5 Pro, Sonnet-3 et Sonnet-3.5 obtiennent de très bons scores dans les benchmarks de compréhension visuelle, mais plafonnent en moyenne à 58,57 % de précision sur des tâches visuelles de bas niveau que les humains résolvent facilement
BlindTest évalue la perception spatiale fine au moyen de 7 tâches simples : compter les intersections de lignes, déterminer si deux cercles se touchent ou se chevauchent, trouver une lettre marquée, compter des formes superposées, des rectangles imbriqués, des lignes et colonnes de tableaux, ou encore des itinéraires de métro
La moyenne globale est supérieure à la ligne de base aléatoire de 24 %, mais même le meilleur modèle, Sonnet-3.5, reste à 74,94 %, loin des 100 % attendus chez l’humain
Même en modifiant la résolution et l’épaisseur des traits, les modèles ne parviennent pas à traiter de manière fiable les éléments géométriques de base proches ou superposés, ni les relations de position précises
La présence de texte dans les tableaux améliore les performances de comptage des lignes et colonnes, mais celles-ci chutent fortement sur les entrées nécessitant un suivi spatial, comme les plans de métro où le nombre d’itinéraires augmente

Configuration de BlindTest et résultats globaux

Paper (ArXiv), Code et Dataset ont été publiés
Les modèles évalués sont quatre VLM : GPT-4o, Gemini-1.5 Pro, Sonnet-3 et Sonnet-3.5
BlindTest examine la perception spatiale fine des VLM au moyen de tâches visuelles de bas niveau faciles pour les humains
La précision moyenne globale est de 58,57 %, au-dessus de la ligne de base aléatoire de 24 %, mais en dessous de la précision attendue de 100 %
Dans la moyenne globale par modèle, Sonnet-3.5 arrive en tête avec 74,94 %
Les principaux échecs se répètent sur les relations de position précises, les faibles espacements, les chevauchements, le suivi d’itinéraires et la reconnaissance d’éléments géométriques de base

Comptage des intersections de lignes

La tâche consiste à compter si deux polylignes bleue et rouge, composées de 2 segments chacune, se croisent 0, 1 ou 2 fois
Les images sont générées sous forme de 1 800 graphiques 2D de lignes sur un canevas blanc
- Chaque ligne est définie par trois points dont les coordonnées x sont fixes et régulièrement espacées
- Les coordonnées y sont échantillonnées aléatoirement de façon à produire exactement 0, 1 ou 2 intersections
Les choix de réponse sont {0, 1, 2}, et la ligne de base aléatoire est de 33 %
Les précisions moyennes sont GPT-4o 41,61 %, Gemini-1.5 Pro 66,94 %, Sonnet-3 43,41 % et Sonnet-3.5 75,36 %
Dans les exemples de résultats, les VLM ne parviennent pas à compter les points d’intersection de manière fiable

Déterminer si deux cercles se touchent ou se chevauchent

La tâche demande en Yes/No si deux disques de même taille se touchent ou se chevauchent
Les images sont au nombre de 672 et sont générées en faisant varier la taille des cercles, la distance, la direction et la taille du canevas
- Le diamètre des cercles est égal à 1/4, 1/5, 1/6 ou 1/7 de la taille du canevas
- La distance entre les circonférences va de -0,15 fois à 0,5 fois le diamètre
- Les directions sont 90°, 0°, -45° et 45°
- Les tailles de canevas sont 384, 769 et 1155 pixels
La bonne réponse est déterminée par la distance d entre les circonférences
- d < 0 : les cercles se chevauchent et se touchent
- d = 0 : ils ne se chevauchent pas, mais se touchent
- d > 0 : ils ne se chevauchent pas et ne se touchent pas
Les précisions moyennes sont GPT-4o 72,69 %, Gemini-1.5 Pro 92,78 %, Sonnet-3 84,52 % et Sonnet-3.5 91,66 %
Les VLM échouent régulièrement sur les petits espacements, et certains cas montrent GPT-4o instable même avec de grands espacements

Trouver la lettre marquée par une ellipse rouge

Les VLM peuvent identifier isolément des formes simples comme un cercle rouge et lire des mots anglais, mais lorsqu’une ellipse rouge est superposée à une lettre donnée d’un mot, ils ont du mal à trouver exactement de quelle lettre il s’agit
Les chaînes utilisées sont Acknowledgement, Subdermatoglyphic et tHyUiKaRbNqWeOpXcZvM
- Ces trois chaînes ont des largeurs et hauteurs de lettres variées
- Les quatre modèles sont capables de lire l’ensemble des lettres lorsque seule la chaîne est fournie sous forme d’image
- La chaîne aléatoire est incluse pour estimer l’effet de la familiarité du mot sur la précision
Pour chaque combinaison chaîne/lettre marquée, des images 512×512 sont créées en combinant 3 épaisseurs de trait d’ellipse rouge, 2 tailles de police et 4 positions dans le canevas
- Acknowledgement : 360 images
- Subdermatoglyphic : 408 images
- tHyUiKaRbNqWeOpXcZvM : 480 images
Les précisions moyennes sont GPT-4o 70,18 %, Gemini-1.5 Pro 92,81 %, Sonnet-3 73,34 % et Sonnet-3.5 89,22 %
Lorsqu’ils se trompent, les modèles ont tendance à prédire une lettre voisine de la lettre marquée

Comptage de formes superposées et de rectangles imbriqués

La tâche consistant à compter des cercles ou des pentagones superposés, comme dans le logo olympique, vérifie si les VLM capables de compter des cercles séparés rencontrent aussi des difficultés avec des formes qui se chevauchent
Dans la tâche des formes superposées, 5 à 9 formes de même taille sont disposées sur deux lignes dans des canevas de 384, 769 et 1155 pixels
- Le diamètre des cercles est C/5 ou C/10
- La longueur des côtés des pentagones est C/5 ou C/10
- Au total, 120 images sont générées
- Les réponses possibles sont {5, 6, 7, 8, 9}, avec une ligne de base aléatoire de 20 %
La précision pour les cercles superposés est GPT-4o 42,50 %, Gemini-1.5 Pro 20,83 %, Sonnet-3 31,66 % et Sonnet-3.5 44,16 %
La précision pour les pentagones superposés est GPT-4o 19,16 %, Gemini-1.5 Pro 9,16 %, Sonnet-3 11,66 % et Sonnet-3.5 75,83 %
La tâche des rectangles imbriqués consiste à placer, à l’intérieur du rectangle le plus externe, d’autres rectangles qui ne se touchent pas, puis à en compter 2 à 5
- Au total, 120 images sont générées
- Les précisions sont GPT-4o 55,83 %, Gemini-1.5 Pro 87,08 %, Sonnet-3 65,00 % et Sonnet-3.5 92,08 %
- Dans les exemples, seul Sonnet-3.5 réussit à compter les rectangles dans de nombreuses images

Comptage des lignes/colonnes de tableaux et suivi d’itinéraires de métro

La tâche de comptage des lignes et colonnes de tableaux vérifie si les VLM comptent correctement une simple structure en grille, même dans des situations où ils obtiennent de bonnes performances avec des entrées contenant des tableaux
Les grilles sont de type N×N, N×N’ et N’×N, avec N allant de 3 à 9 et N’ valant N+1
- Les tailles de canevas sont 500, 1250 et 2000 pixels
- Deux épaisseurs de trait sont utilisées
- Le jeu comprend à la fois des grilles vides et des grilles contenant des mots aléatoires dans chaque cellule, pour un total de 444 images
La réponse n’est correcte que si le nombre de lignes et de colonnes est juste ; les précisions moyennes sont GPT-4o 39,58 %, Gemini-1.5 Pro 39,39 %, Sonnet-3 36,17 % et Sonnet-3.5 74,26 %
- La moyenne pour les grilles vides est de 34,37 %
- La moyenne pour les grilles avec texte est de 60,33 %
- La présence de texte dans les cellules améliore les performances de tous les VLM, avec une amélioration particulièrement marquée pour Sonnet-3.5
La tâche de plan de métro consiste à compter le nombre d’itinéraires d’une seule couleur reliant deux stations données parmi A, B, C et D
- Des canevas de 512 ou 1024 pixels sont utilisés
- Les itinéraires sont générés par recherche en profondeur sur une grille invisible de 18×18
- Chaque station possède exactement N∈{1, 2, 3} itinéraires sortants
- Au total, 180 plans sont générés
La précision moyenne sur les itinéraires de métro est GPT-4o 47,89 %, Gemini-1.5 Pro 41,60 %, Sonnet-3 23,24 % et Sonnet-3.5 55,53 %
- Avec 1 itinéraire par station, la moyenne est de 59,16 %
- Avec 2 itinéraires, la moyenne est de 40,69 %
- Avec 3 itinéraires, la moyenne est de 26,35 %
Les performances des VLM tendent à se dégrader davantage lorsque le nombre d’itinéraires sortant de chaque station augmente

1 commentaires

GN⁺ 2024-07-11

Avis de Hacker News

C’est amusant, mais la conclusion me semble assez à côté de la plaque. Écrire dans le résumé que « leur vision ressemble au mieux à une myopie où les détails apparaissent flous » est excessif, et je me demande même si cette hypothèse a été correctement vérifiée.
Si je pouvais partager des exemples où GPT-4v accomplit au travail des tâches visuelles fines assez difficiles, cela suffirait à contredire cette conclusion. Personnellement, j’accorde davantage de crédit à cet article https://arxiv.org/abs/2404.04125 : l’idée est que les grands modèles d’IA générative s’en sortent plutôt bien, à condition qu’ils aient vu énormément de données de ce type pendant l’entraînement. Si l’on fabrique volontairement des tâches bizarres, ils peuvent vraiment échouer, et la première impression d’AGI s’en trouve affaiblie, mais dans la pratique on n’utilise pas seulement des tâches conçues pour faire trébucher les modèles. Ils peuvent être performants sur certaines tâches, et cet article ne fournit pas assez d’éléments concrets pour étayer ces deux aspects.
- On voit pas mal d’« avocats de l’IA » dans les commentaires, mais vu que ces modèles sont commercialisés comme des substituts de la vision humaine pour des usages comme Be My Eyes auprès des personnes malvoyantes, je trouve le titre équitable : https://www.youtube.com/watch?v=Zq710AKC1gg
  Ces modèles ne sont pas réellement au niveau humain, mais on laisse entendre qu’ils s’en approchent. L’article montre qu’il existe encore un grand écart, avec des modèles qui se perdent de façon inattendue même sur des problèmes simples. Il faut mettre davantage en lumière ce type de tâches, afin que les gens comprennent qu’il faut des garde-fous et des avertissements suffisants avant de croire qu’ils conviennent à des usages généraux.
- « Amusant » est bien le mot. Ils ont trouvé de bons cas limites dans le traitement visuel des modèles et, fait intéressant, ce n’est pas conceptuellement très éloigné de certaines illusions d’optique qui trompent aussi les humains.
  Mais qualifier les modèles d’« aveugles », ou suggérer qu’ils sont généralement peu performants, se réfute facilement en sortant son téléphone et en mettant une photo dans l’application ChatGPT. Certains réagissent en dénonçant les « avocats de l’IA » à propos de BeMyEyes, mais avec un abonnement à 20 dollars par mois et un téléphone, on peut tester ça immédiatement. Sur des tâches du monde réel, cela fonctionne étonnamment bien ; ce n’est pas parfait, mais c’est suffisamment utile en pratique, et souvent meilleur que les alternatives, voire sans alternative.
- L’expression « myopie où les détails apparaissent flous » n’est pas si éloignée de la réalité. La plupart des modèles voient les images en basse résolution et avec une palette de couleurs limitée, donc cette description est assez proche.
- « Les grands modèles d’IA générative s’en sortent plutôt bien », c’est vraiment un argument de vente ? Il y a 15 ans déjà, on trouvait des scanners livrés avec une application Windows qui extrayait du texte après numérisation d’un document, et la machine devait avoir environ 256 Mo de RAM.
  Une technologie peut être extrêmement performante sur des tâches de niche isolées. Les systèmes d’OCR d’il y a 10 ans étaient déjà très fiables sur la tâche unique pour laquelle ils étaient configurés. La promesse de l’IA, c’était un nouveau paradigme qui ne resterait pas enfermé dans une niche spécifique définie par les développeurs ; si elle rate régulièrement des choses simples qu’une personne ordinaire ne manquerait pas, toute la proposition de valeur s’effondre.
- Le postulat « je ne peux pas partager » est intéressant. On a l’impression d’entendre que le modèle est tellement excellent sur certains traitements visuels précis et secrets qu’il ne faudrait pas tenir compte d’évaluations comme compter des formes ou obtenir une précision meilleure qu’un lancer de pièce.
Hier, j’ai eu une expérience assez bluffante avec GPT-4o. Ma porte de garage s’est récemment mise à tomber ; en l’examinant, j’ai vu que le propriétaire avait mal installé un serre-câble à étrier, ce qui avait relâché la tension du câble de torsion.
Je ne connaissais pas le nom de la pièce, alors j’ai demandé à ChatGPT, qui l’a identifiée comme prévu. Pour tester, je lui ai demandé s’il remarquait quelque chose d’anormal sur la photo, et il a correctement repéré que le câble était installé à l’envers : le brin sous tension reposait sur l’extrémité libre au lieu de la serrer fermement. Pour diagnostiquer cela, il faut suivre le câble dans l’espace et déduire, à partir de la géométrie, quel côté est sous tension ; bien sûr, on ne peut pas exclure la possibilité d’un coup de chance. Ce qui m’a vraiment étonné, c’est qu’il manquait manifestement l’un des deux écrous, mais même après m’avoir signalé un deuxième problème d’installation, il ne l’a pas remarqué. Capture d’écran : https://imgur.com/a/QqCNzOM
- Un humain devrait suivre le câble. Mais le LLM a peut-être répondu en se fondant sur le fait que le simple fait de poser une question sur le serre-câble indique généralement qu’il y a un problème, et que c’est un type de panne très courant.
  Le fait qu’il ait ressorti le moyen mnémotechnique « never saddle a dead horse » indique aussi que ce problème est fréquent. Ce serait intéressant de lui reposer la même question après réparation.
- Avec mes yeux d’humain, je ne voyais pas suffisamment dans cette photo pour déduire de quel côté la tension devait s’exercer. Je ne suis pas formé à ça, mais avec l’explication, je savais à quoi m’attendre.
  Comme dans une autre réponse, je suis sceptique à l’idée que le LLM ait simplement eu de la chance.
- Suivre quelque chose dans l’espace nécessite une mémoire à court terme et une capacité de raisonnement. Le modèle n’a pas cela, donc il a forcément deviné.
Jusqu’ici, les VLM ne se sont pas montrés très bons pour compter des objets ni pour traiter les relations spatiales, par exemple déterminer si le café se trouve à droite du micro-ondes.
Il existe des moyens d’aider les VLM, dont Set of Marks de Microsoft https://github.com/microsoft/SoM est un exemple représentatif. Le principe consiste à délimiter des zones par segmentation et à leur ajouter des étiquettes avant d’envoyer l’image au VLM. Donner à une zone une étiquette « exprimable en mots » aide à ancrer les capacités visuelles du VLM, ce qui explique aussi pourquoi, dans cet article, les performances sont bien meilleures pour « Task 6: Counting the rows and columns of a grid » quand il y a des mots dans la grille.
- Je ne savais pas que compter des objets posait problème. C’est ironique : à ma connaissance, la première implémentation d’un réseau de neurones était la rétine artificielle numa-rete, créée vers 1960 au Biological Computer Lab.
  C’était un ordinateur analogique parallèle constitué de « neurones » dotés de cellules photoélectriques disposés en grille, et l’on dit qu’il pouvait compter le « nombre d’objets indépendamment de la taille, de la position, de la forme et de l’intensité lumineuse ». Pour les personnes du domaine, l’article de Heinz Von Foerster de 1962, « Perception of Form in Biological and Man Made Systems », pourrait être intéressant : https://distributedmuseum.illinois.edu/exhibit/biological_computer_laboratory/, https://sites.evergreen.edu/arunchandra/wp-content/uploads/sites/395/2018/05/bcl082.pdf
- Les modèles visuels utilisent CLIP ou quelque chose de similaire, mais ils n’ont pas de notion de compréhension des objets concrets présents dans l’image. Ils ne voient que des embeddings corrélés, un peu comme pour les embeddings de texte.
  Le principe est de décrire une image comme « des oiseaux sont posés sur des fils électriques devant un ciel bleu et des nuages », puis de faire correspondre l’embedding de cette description avec celui de la photo. Si on demande s’il y a des oiseaux, le modèle peut le savoir, mais il ne sait pas combien il y en a. Sauf si, dans les données d’entraînement, il était courant de décrire le nombre d’oiseaux posés sur un objet, et que ce nombre correspondait assez souvent au nombre réel dans la description de l’image. Si l’on veut compter des objets, il faut quelque chose comme YOLO.
Les Vision Transformers effectuent une quantité étonnamment importante de compression au niveau du tokenizer. Dans le papier Chameleon, il est dit que le tokenizer « encode une image 512 × 512 en 1024 tokens discrets issus d’un codebook de taille 8192 ».
Cela fait 256 pixels par token ; si l’on considère qu’un pixel fait 24 bits, cela revient à compresser 256 * 24 = 6144 bits en 13 bits, soit log2(8192). An Image is Worth 32 Tokens for Reconstruction and Generation pousse cette idée encore plus loin. Si ces modèles fonctionnent de manière similaire, il n’est pas étonnant qu’ils peinent sur certaines tâches visuelles.
- Ce n’est pas si simple. Si l’on demande à GPT-4o de créer une copie de ce genre d’image, il le fait généralement assez fidèlement. Par exemple, il peut produire une image contenant 5 rectangles.
  Donc, dans une certaine mesure, il « voit ». En revanche, il semble manquer de logique pour répondre à ce type de questions. L’ensemble complet de données peut être testé directement ici : https://huggingface.co/datasets/XAI/vlmsareblind/viewer/default/train
- GPT-4o est très performant sur certaines tâches visuelles comme l’OCR. Donc cette cécité sélective pourrait, comme indiqué, être le résultat d’une capacité globale concentrée sur la réduction de la perte pour quelques tâches étroites disposant du plus grand volume de données d’entraînement.
  Il pourrait s’agir d’un problème de capacité plutôt que d’un échec structurel de généralisation, et il est possible qu’une augmentation d’échelle le résolve naturellement.
- En cherchant un exemple similaire dans une modalité sensorielle humaine autre que la vision, j’ai pensé à la situation où l’on essaie de décrire le goût d’un fruit à quelqu’un qui ne l’a jamais goûté.
Si les meilleurs modèles actuels, GPT-4o, Gemini-1.5 Pro, Sonnet-3 et Sonnet-3.5, en sont là, leurs performances sont assez embarrassantes. Ces modèles sont présentés et vendus comme capables de comprendre les images, par exemple pour guider des personnes aveugles ou enseigner la géométrie à un enfant.
Les tâches sur lesquelles ils échouent sont absurdement simples pour un humain : compter combien de fois deux lignes se croisent, détecter si deux cercles se chevauchent, choisir une lettre entourée dans un mot, compter le nombre de cercles dans une image ressemblant au logo olympique, etc. Cet article devrait être tout en haut de la première page.
- Je ne vois pas en quoi c’est le moins du monde « embarrassant ». Ces modèles ne sont pas des cerveaux humains, et le fait que des gens les assimilent à des cerveaux humains est un échec plus embarrassant que celui des modèles.
  Il n’est absolument pas surprenant qu’un modèle ne sache pas traiter plusieurs cas « évidents pour un humain ». Le machine learning a ce genre de caractéristiques depuis le début, et c’est une erreur classique que les gens commettent en manipulant ce type de systèmes. Quand un modèle de machine learning obtient une meilleure précision qu’un humain sur la tâche X, les gens supposent qu’il aura aussi cette capacité sur toutes les autres tâches. Pour une personne très compétente, il est plausible qu’elle le soit aussi sur d’autres tâches, mais cela ne s’applique pas aux modèles de machine learning. À l’inverse, il est tout aussi faux de conclure que, parce qu’un modèle est mauvais sur la tâche Y, ses capacités sur la tâche X sont illusoires et indignes de confiance.
- Cette réaction se lit comme : « Mon chien qui parle se trompe toujours en calcul différentiel, quel embarras ! »
  Le tapis roulant des attentes s’est-il vraiment accéléré à ce point, au point que toute performance inférieure à celle d’un humain dans n’importe quelle catégorie de problèmes soit désormais embarrassante ?
La découverte en elle-même est intéressante, mais le titre « Vision language models are blind » est exagéré et induit en erreur sur les résultats. Il est vrai que la façon dont les VLM détectent et traitent les entrées image est très différente de celle des humains, et qu’à basse résolution l’image est découpée en blocs puis mappée vers des tokens discrets.
Ce mapping entraîne une perte assez importante, si bien qu’en pratique ils n’ont pas accès aux détails fins. En ce sens, les résultats sont tout à fait logiques et pas surprenants, mais l’expression « aveugles » a une connotation forte que cette étude ne parvient pas à étayer. Rien qu’avec le premier exemple, quatre graphes linéaires en 2D, quand on interroge Sonnet 3.5 cinq fois, il donne deux réponses plutôt correctes. Il se trompe en disant que le troisième graphe a 1 point d’intersection alors qu’il en a en réalité 2, mais globalement il s’en sort assez bien, et les trois autres fois il répond aussi 1 pour le troisième graphe.
Avec la connaissance assez superficielle que j’ai du fonctionnement des VLM, j’ai l’impression que les gens qui parlent ici d’incarnation ont peut-être en partie raison. Les humains peuvent affiner de manière itérative leur reconnaissance d’image et se concentrer sur des zones d’intérêt, alors qu’un VLM doit traiter toute l’image avec la même fidélité.
Je me demande s’il y aurait un moyen d’imiter cela. Par exemple, commencer avec des tokens visuels de faible fidélité, puis permettre au VLM d’émettre des tokens qui « focalisent » une zone précise de l’image à plus haute résolution. Cela dit, je ne sais pas vraiment s’il est possible d’entraîner efficacement un modèle avec ce type de données « interactives ».
- N’est-ce pas justement le mécanisme d’attention ? C’est pour ça qu’on utilise des Transformers pour ce genre de tâches, il me semble.
  Pas forcément à plus haute résolution, mais en focalisant certaines zones via une connectivité neuronale plus forte.
- Les humains naissent en réalité avec une vision floue, car les yeux mettent du temps à se développer ; l’apprentissage humain commence donc avec des images en basse résolution. Il existe même des théories selon lesquelles ce ne serait pas une limite, mais un avantage pour le développement du système de traitement visuel.
  Dans les pays pauvres, les personnes dont la cataracte est retirée un peu plus tard devraient, du point de vue du matériel disponible à ce moment-là, avoir une vision parfaite, mais elles semblent tout de même conserver des déficits toute leur vie. On ne sait pas complètement à quel point l’apprentissage initial en basse résolution influence les humains, et cela pourrait relever de la neurobiologie propre à l’humain plutôt que d’une vérité générale sur les systèmes connexionnistes. Mais l’idée que certains résultats des réseaux de neurones artificiels puissent dépendre fortement du paradigme d’entraînement, et que tous les défauts ne puissent pas être corrigés uniquement par des mises à jour de l’architecture centrale, est intéressante.
- Pour imiter le traitement attentionnel humain, un axe d’amélioration relativement facile à collecter pourrait être de grandes quantités de données de suivi du regard, associées à ce que la personne était en train de regarder.
- Ces modèles ont déjà appris à se concentrer sur des parties spécifiques de l’image. C’est précisément l’objectif explicite des Transformers au départ.
- La capacité humaine à « affiner » itérativement la perception n’a rien à voir avec la cognition incarnée.
Il est ironique qu’ils échouent à des tests simples, qu’un enfant pourrait apparemment résoudre. Mais quand j’ai demandé à Gemini de lire une carte postale en cursive russe manuscrite, avec beaucoup de bruit visuel, il a réussi à lire le texte et même à le traduire en anglais.
Je n’ai même pas eu besoin de lui dire que le texte était en russe. D’un côté, ce que les LLM sont capables de faire est incroyablement impressionnant ; de l’autre, ils trébuchent souvent lourdement sur des problèmes qui semblent simples. On observe quelque chose de similaire avec les voitures autonomes, qui ont des accidents dans des situations que presque tous les conducteurs humains auraient facilement évitées.
- C’est simple pour un enfant, parce que notre vision a évolué pour reconnaître ce type de motifs, car c’était important pour la survie. Lire le russe, non.
  D’un point de vue algorithmique, ces tâches visuelles sont en fait assez difficiles à programmer explicitement.
J’ai donné plusieurs cours de géométrie algorithmique, et calculer efficacement les intersections de N segments n’est pas aussi simple qu’on le pense au premier abord. À un moment, il faut bien effectuer un calcul pour les reconnaître, et comme les LLM n’ont pas été spécialement entraînés pour cette tâche, il n’est pas surprenant qu’ils aient du mal.
Dans l’ensemble, la géométrie de base semble être un domaine assez peu exploré du point de vue de l’apprentissage.
- Déterminer s’il y a un chien sur une photo ou comprendre le sentiment d’un paragraphe n’est pas simple non plus. La complexité en elle-même ne semble pas être le point central.
  Il semble y avoir une différence entre les types de raisonnement que ces modèles ont appris et ceux qui sont nécessaires pour un raisonnement mathématique concret.
- Les humains n’ont pas non plus une capacité de « calcul des intersections ». À part ce que certains ont laborieusement appris avec l’algèbre, nous disposons d’un mécanisme de « regarder et compter ».
  Nous ne prenons pas visuellement les lignes dans l’espace plan pour calculer où elles se croisent. Nous savons à quoi ressemble une intersection, nous en voyons une, nous incrémentons un compteur, puis nous cherchons la suivante. S’il y en a moins d’environ cinq, nous les traitons d’un coup ; au-delà, nous les comptons réellement, parfois par petits groupes, parfois une par une.
Tous les modèles, et Claude 3.5 Sonnet en particulier, semblent faire bien mieux que le hasard, donc ils ne sont clairement pas aveugles. La seule tâche où Claude Sonnet 3.5 ne fait pas mieux que le hasard est celle où il faut suivre plusieurs chemins, c’est-à-dire le cas où la réponse de A à C est 3, et il me faut à moi aussi quelques secondes pour la résoudre.
J’ai l’impression que le titre de l’article a été décidé à l’avance, puis que le nouveau Claude 3.5 Sonnet a été évalué avec des images abstraites. La phrase « leur vision ressemble au mieux à une myopie où les détails apparaissent flous » n’a pas non plus de sens. Ces images évaluent les capacités d’abstraction du modèle, pas son acuité visuelle.
- Alors disons qu’ils sont juridiquement malvoyants

Les limites visuelles des modèles vision-langage

Configuration de BlindTest et résultats globaux

Comptage des intersections de lignes

Déterminer si deux cercles se touchent ou se chevauchent

Trouver la lettre marquée par une ellipse rouge

Comptage de formes superposées et de rectangles imbriqués

Comptage des lignes/colonnes de tableaux et suivi d’itinéraires de métro

À lire aussi

1 commentaires

Avis de Hacker News