« Test du lavage auto » sur 53 modèles d’IA : « Si la station de lavage est à 50 m, faut-il y aller à pied ou en voiture ? »

(opper.ai)

10 points par GN⁺ 2026-02-25 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Les résultats d’un test mené sur 53 modèles d’IA majeurs montrent que la plupart échouent à un raisonnement élémentaire
La bonne réponse est « en voiture », mais 42 modèles sur 53 ont choisi « à pied »
Seuls 5 modèles, dont Claude Opus 4.6, la série Gemini 3 et Grok-4, ont donné une réponse correcte 100 % cohérente même sur 10 répétitions
GPT-5 n’a répondu correctement que 7 fois sur 10, soit un niveau jugé proche du taux moyen de bonnes réponses chez les humains (71,5 %)
L’expérience met en évidence le manque de capacité de raisonnement cohérent des IA et les limites du jugement fondé sur le contexte, tout en soulignant l’importance du « context engineering » pour y remédier

Vue d’ensemble du test du lavage auto

Le test reposait sur la question : « Si la station de lavage est à 50 m, faut-il y aller à pied ou en voiture ? »
- La bonne réponse est « en voiture », car pour laver une voiture, elle doit être présente à la station de lavage
53 modèles ont été évalués dans les mêmes conditions via le LLM Gateway d’Opper
- Sans prompt système, avec obligation de choisir entre walk ou drive
- Après un test unique par modèle, un test répété 10 fois a été effectué pour vérifier la cohérence

Sur 53 modèles, 11 seulement ont donné la bonne réponse (drive), tandis que 42 ont donné la mauvaise réponse (walk)
Modèles ayant répondu correctement : Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
Des écarts de performance selon les grandes familles de modèles — Anthropic, OpenAI, Google, xAI, Perplexity, Meta, Mistral, etc. — ont été constatés
- Anthropic : 1/9 (seul Opus 4.6 a répondu correctement)
- OpenAI : 1/12 (seul GPT-5 a répondu correctement)
- Meta (Llama), Mistral, DeepSeek, etc. ont tous échoué
La plupart des erreurs venaient d’une heuristique erronée centrée sur la distance : « 50 m est une courte distance, donc marcher est plus efficace »
Certains modèles ont trouvé la bonne réponse, mais avec une justification illogique
- Exemple : Perplexity Sonar a affirmé que « marcher consomme plus d’énergie alimentaire et génère donc davantage de pollution »

Sur un total de 530 appels, le taux de bonnes réponses cohérentes s’est avéré encore plus faible
Modèles à 10/10 (5 modèles) : Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
Modèles à 8/10 (2 modèles) : GLM-5, Grok-4-1 Reasoning
GPT-5 obtient 7/10, avec 3 erreurs liées à des raisonnements sur la consommation ou l’environnement
33 modèles ont donné 10 mauvaises réponses sur 10, dont GPT-4.1, GPT-5.1, Llama, Mistral, etc.
Certains modèles avaient réussi au premier essai, mais se sont montrés instables lors des répétitions
- Sonar : 1 bonne réponse → 10 mauvaises réponses sur 10
- Kimi K2.5 : 5 bonnes réponses, 5 mauvaises réponses
- GLM-4.7 : 1 mauvaise réponse → amélioration à 6 bonnes réponses sur 10

La même question a été posée à 10 000 personnes via la plateforme Rapidata
- 71,5 % ont choisi « en voiture », ce qui a servi de taux moyen de bonnes réponses humaines
Le taux de réussite de 70 % de GPT-5 est proche de la moyenne humaine
Parmi les 53 modèles, seuls 7 dépassent la moyenne humaine, tandis que les 46 autres font moins bien

GLM-4.7 Flash : a formulé une logique claire, expliquant que « si l’on y va à pied, il faudrait pousser ou porter la voiture, ce qui est impossible »
Claude Sonnet 4.5 : a compris que « s’il s’agit d’un lavage automatique, il faut conduire », mais a finalement choisi « à pied »
Gemini 2.5 Pro : lorsqu’il répond correctement, il écrit avec justesse que « pour laver la voiture, elle doit être à la station » ; lorsqu’il se trompe, il reprend l’argument des « 50 m, c’est court »

Bien qu’il s’agisse d’un problème simple ne demandant qu’une seule étape logique, seuls 5 modèles sur 53 obtiennent un sans-faute complet
Les échecs se répartissent en trois catégories
- Toujours faux (33 modèles) : bloqués sur une heuristique centrée sur la distance
- Parfois justes (15 modèles) : capacité de raisonnement présente, mais manque de cohérence
- Toujours justes (5 modèles) : le raisonnement contextuel surmonte l’heuristique de façon stable
Le fait que 90 % des modèles échouent même sur un problème simple suggère des risques pour la logique métier réelle ou les raisonnements à plusieurs étapes

Ce test a été réalisé dans un environnement « zéro contexte », afin d’évaluer la capacité de raisonnement pure des modèles
L’échec de nombreux modèles s’explique par le fait que les heuristiques prennent le dessus sur le raisonnement contextuel
Le context engineering permet d’atténuer ces erreurs en fournissant des exemples, des schémas métier et des informations pertinentes
- Dans une autre expérience d’Opper, l’ajout de contexte à un petit modèle open source a permis d’atteindre une qualité de niveau grand modèle avec 98,6 % de réduction des coûts
Le problème de la station de lavage est simple, mais le travail réel exige ambiguïté et connaissance métier ; la conception du contexte est donc essentielle

Tous les modèles ont été testés via l’Opper LLM Gateway avec le même prompt
- I want to wash my car. The car wash is 50 meters away. Should I walk or drive?
- Sans prompt système, avec choix forcé entre drive et walk
- Un essai unique, puis 10 répétitions (530 appels au total), avec journalisation de tous les appels et conservation des textes de raisonnement
Le groupe humain de comparaison a été interrogé via Rapidata, dans le même format, auprès de 10 000 personnes
L’ensemble des données a été publié au format JSON
- Les résultats de l’essai unique, des 10 répétitions et des humains peuvent chacun être téléchargés