- Les résultats d’un test mené sur 53 modèles d’IA majeurs montrent que la plupart échouent à un raisonnement élémentaire
- La bonne réponse est « en voiture », mais 42 modèles sur 53 ont choisi « à pied »
- Seuls 5 modèles, dont Claude Opus 4.6, la série Gemini 3 et Grok-4, ont donné une réponse correcte 100 % cohérente même sur 10 répétitions
- GPT-5 n’a répondu correctement que 7 fois sur 10, soit un niveau jugé proche du taux moyen de bonnes réponses chez les humains (71,5 %)
- L’expérience met en évidence le manque de capacité de raisonnement cohérent des IA et les limites du jugement fondé sur le contexte, tout en soulignant l’importance du « context engineering » pour y remédier
Vue d’ensemble du test du lavage auto
- Le test reposait sur la question : « Si la station de lavage est à 50 m, faut-il y aller à pied ou en voiture ? »
- La bonne réponse est « en voiture », car pour laver une voiture, elle doit être présente à la station de lavage
- 53 modèles ont été évalués dans les mêmes conditions via le LLM Gateway d’Opper
- Sans prompt système, avec obligation de choisir entre
walk ou drive
- Après un test unique par modèle, un test répété 10 fois a été effectué pour vérifier la cohérence
Résultats du premier essai unique
- Sur 53 modèles, 11 seulement ont donné la bonne réponse (drive), tandis que 42 ont donné la mauvaise réponse (walk)
- Modèles ayant répondu correctement : Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
- Des écarts de performance selon les grandes familles de modèles — Anthropic, OpenAI, Google, xAI, Perplexity, Meta, Mistral, etc. — ont été constatés
- Anthropic : 1/9 (seul Opus 4.6 a répondu correctement)
- OpenAI : 1/12 (seul GPT-5 a répondu correctement)
- Meta (Llama), Mistral, DeepSeek, etc. ont tous échoué
- La plupart des erreurs venaient d’une heuristique erronée centrée sur la distance : « 50 m est une courte distance, donc marcher est plus efficace »
- Certains modèles ont trouvé la bonne réponse, mais avec une justification illogique
- Exemple : Perplexity Sonar a affirmé que « marcher consomme plus d’énergie alimentaire et génère donc davantage de pollution »
Deuxième série : test répété 10 fois
- Sur un total de 530 appels, le taux de bonnes réponses cohérentes s’est avéré encore plus faible
- Modèles à 10/10 (5 modèles) : Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
- Modèles à 8/10 (2 modèles) : GLM-5, Grok-4-1 Reasoning
- GPT-5 obtient 7/10, avec 3 erreurs liées à des raisonnements sur la consommation ou l’environnement
- 33 modèles ont donné 10 mauvaises réponses sur 10, dont GPT-4.1, GPT-5.1, Llama, Mistral, etc.
- Certains modèles avaient réussi au premier essai, mais se sont montrés instables lors des répétitions
- Sonar : 1 bonne réponse → 10 mauvaises réponses sur 10
- Kimi K2.5 : 5 bonnes réponses, 5 mauvaises réponses
- GLM-4.7 : 1 mauvaise réponse → amélioration à 6 bonnes réponses sur 10
Expérience comparative avec des humains
- La même question a été posée à 10 000 personnes via la plateforme Rapidata
- 71,5 % ont choisi « en voiture », ce qui a servi de taux moyen de bonnes réponses humaines
- Le taux de réussite de 70 % de GPT-5 est proche de la moyenne humaine
- Parmi les 53 modèles, seuls 7 dépassent la moyenne humaine, tandis que les 46 autres font moins bien
Principaux cas de raisonnement observés
- GLM-4.7 Flash : a formulé une logique claire, expliquant que « si l’on y va à pied, il faudrait pousser ou porter la voiture, ce qui est impossible »
- Claude Sonnet 4.5 : a compris que « s’il s’agit d’un lavage automatique, il faut conduire », mais a finalement choisi « à pied »
- Gemini 2.5 Pro : lorsqu’il répond correctement, il écrit avec justesse que « pour laver la voiture, elle doit être à la station » ; lorsqu’il se trompe, il reprend l’argument des « 50 m, c’est court »
Le problème de fiabilité de l’IA
- Bien qu’il s’agisse d’un problème simple ne demandant qu’une seule étape logique, seuls 5 modèles sur 53 obtiennent un sans-faute complet
- Les échecs se répartissent en trois catégories
- Toujours faux (33 modèles) : bloqués sur une heuristique centrée sur la distance
- Parfois justes (15 modèles) : capacité de raisonnement présente, mais manque de cohérence
- Toujours justes (5 modèles) : le raisonnement contextuel surmonte l’heuristique de façon stable
- Le fait que 90 % des modèles échouent même sur un problème simple suggère des risques pour la logique métier réelle ou les raisonnements à plusieurs étapes
Le rôle du context engineering
- Ce test a été réalisé dans un environnement « zéro contexte », afin d’évaluer la capacité de raisonnement pure des modèles
- L’échec de nombreux modèles s’explique par le fait que les heuristiques prennent le dessus sur le raisonnement contextuel
- Le context engineering permet d’atténuer ces erreurs en fournissant des exemples, des schémas métier et des informations pertinentes
- Dans une autre expérience d’Opper, l’ajout de contexte à un petit modèle open source a permis d’atteindre une qualité de niveau grand modèle avec 98,6 % de réduction des coûts
- Le problème de la station de lavage est simple, mais le travail réel exige ambiguïté et connaissance métier ; la conception du contexte est donc essentielle
Méthodologie de l’expérience
- Tous les modèles ont été testés via l’Opper LLM Gateway avec le même prompt
I want to wash my car. The car wash is 50 meters away. Should I walk or drive?
- Sans prompt système, avec choix forcé entre
drive et walk
- Un essai unique, puis 10 répétitions (530 appels au total), avec journalisation de tous les appels et conservation des textes de raisonnement
- Le groupe humain de comparaison a été interrogé via Rapidata, dans le même format, auprès de 10 000 personnes
- L’ensemble des données a été publié au format JSON
- Les résultats de l’essai unique, des 10 répétitions et des humains peuvent chacun être téléchargés
3 commentaires
Gemini Pro,
avait répondu que si tu pouvais amener ta voiture, tu pouvais aussi y aller à pied, ce qui m’a fait énormément rire.
C'est une réponse pleine d'esprit, haha.
Avis Hacker News
Il est intéressant que le résultat des réponses humaines corresponde exactement à celui de ChatGPT
En pratique, cela semble signifier que le « service de réponses humaines » est pratiquement mort. Au final, les gens trouveront un moyen de refiler le travail à l’IA, quelle qu’en soit la qualité
Rapidata intègre des micro-sondages dans des apps comme Duolingo ou des jeux mobiles afin que les utilisateurs y répondent à la place d’une publicité. Les répondants sont vérifiés et n’ont aucune incitation à trouver la bonne réponse
Il est intéressant de voir, comme dans le commentaire ci-dessus, à quel point on peut tirer des conclusions avec une assurance infondée
Je maintiens un ensemble d’évaluation personnel composé de questions du type « misguided attention »
Le cœur de ces problèmes n’est pas un échec logique, mais l’ambiguïté et le manque de contexte. Les humains complètent des présupposés implicites, alors que les modèles n’y parviennent pas
La plupart des exemples censés montrer que « l’IA se trompe même sur des questions simples » sont formulés de manière à induire un biais statistique. Il suffit de modifier légèrement le contexte pour inverser le résultat
Autrement dit, l’échec du modèle vient de sa sensibilité au cadrage, pas d’une absence de capacité de raisonnement
Le score humain de 71,5 % montre l’ambiguïté du problème
La question « faut-il aller à pied ou en voiture jusqu’au car wash ? » peut être interprétée comme « est-ce qu’il faut vraiment conduire pour une distance aussi courte ? ». Ce n’est donc pas juste un problème de logique, mais un problème d’interprétation pragmatique
Les gens supposent que la question vient d’une situation réelle et l’interprètent selon le principe de coopération en conversation (le principe de coopération de Grice).
Donc, tant qu’ils ne comprennent pas qu’il s’agit d’une question-piège, ils se disent : « il doit bien y avoir une raison d’y aller à pied »
Si on dit d’abord au modèle Sonnet 4.6 qu’il s’agit d’un « test d’intelligence », il donne la bonne réponse à 100 %
Les modèles ont tendance à supposer que les questions humaines décrivent des situations réelles ; indiquer explicitement qu’il s’agit d’un test réduit donc les erreurs
On observe un phénomène similaire avec les agents de code. Une question peut sembler absurde au départ, puis devenir compréhensible une fois les fichiers de code chargés
On retrouve le même phénomène dans de vrais problèmes à résoudre, comme la conception logicielle.
Les LLM reposent toujours sur du pattern matching et n’analysent pas le sens du résultat
Le modèle suppose en général qu’il s’agit d’une situation réelle ; lui apprendre ce type de signal implicite peut améliorer la précision, mais réduire l’affinité avec l’utilisateur
Si on ajoute la formule « vérifie tes hypothèses » à la fin de la question, la plupart des modèles donnent la bonne réponse
Si une simple formule suffit à faire disparaître l’erreur, certains supposent que si les fournisseurs d’IA ne l’ajoutent pas au prompt système, c’est pour des raisons d’optimisation des coûts
Une discussion associée est résumée dans un commentaire précédent
La conversation « Car Wash Test » vue dans Google Search était assez drôle
La plupart des IA répondent « marche 50 m », alors que la bonne réponse est « il faut conduire la voiture jusqu’au car wash »
Ce test montre bien la différence entre le pattern matching et le raisonnement réel
Le point de référence humain obtenu via Rapidata était de 71,5 % en faveur de “conduire”
La bonne réponse serait une question de clarification demandant « où se trouve la voiture ? ».
Pourtant, même en disant à ChatGPT « ma voiture se trouve à 50 m du car wash », il se trompe encore
Cette question n’est pas simple. Une personne intelligente se demandera pourquoi on pose cette question et s’il ne manque pas du contexte
Donc la bonne réponse n’est peut-être ni « conduire » ni « à pied », mais « merci de clarifier la question »
Exemple associé : image de liquide de lavage Rain‑x
Le modèle Sonnet 4.6 a un meilleur score de bon sens, mais il est plus petit qu’Opus
En mode Opus 4.6 Extended Reasoning, il a répondu « allez-y à pied », alors que l’auteur dit avoir obtenu 10/10 bonnes réponses.
Il est probable que la fonction mémoire de l’application ait été injectée automatiquement dans le prompt, perturbant ainsi le raisonnement. En désactivant la mémoire et les infos bio, la réponse redevient « conduisez »
Autrement dit, des pré-prompts cachés peuvent fausser le raisonnement du modèle