- Les résultats d’un test mené sur 53 modèles d’IA majeurs montrent que la plupart échouent à un raisonnement élémentaire
- La bonne réponse est « en voiture », mais 42 modèles sur 53 ont choisi « à pied »
- Seuls 5 modèles, dont Claude Opus 4.6, la série Gemini 3 et Grok-4, ont donné une réponse correcte 100 % cohérente même sur 10 répétitions
- GPT-5 n’a répondu correctement que 7 fois sur 10, soit un niveau jugé proche du taux moyen de bonnes réponses chez les humains (71,5 %)
- L’expérience met en évidence le manque de capacité de raisonnement cohérent des IA et les limites du jugement fondé sur le contexte, tout en soulignant l’importance du « context engineering » pour y remédier
Vue d’ensemble du test du lavage auto
- Le test reposait sur la question : « Si la station de lavage est à 50 m, faut-il y aller à pied ou en voiture ? »
- La bonne réponse est « en voiture », car pour laver une voiture, elle doit être présente à la station de lavage
- 53 modèles ont été évalués dans les mêmes conditions via le LLM Gateway d’Opper
- Sans prompt système, avec obligation de choisir entre
walk ou drive
- Après un test unique par modèle, un test répété 10 fois a été effectué pour vérifier la cohérence
Résultats du premier essai unique
- Sur 53 modèles, 11 seulement ont donné la bonne réponse (drive), tandis que 42 ont donné la mauvaise réponse (walk)
- Modèles ayant répondu correctement : Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
- Des écarts de performance selon les grandes familles de modèles — Anthropic, OpenAI, Google, xAI, Perplexity, Meta, Mistral, etc. — ont été constatés
- Anthropic : 1/9 (seul Opus 4.6 a répondu correctement)
- OpenAI : 1/12 (seul GPT-5 a répondu correctement)
- Meta (Llama), Mistral, DeepSeek, etc. ont tous échoué
- La plupart des erreurs venaient d’une heuristique erronée centrée sur la distance : « 50 m est une courte distance, donc marcher est plus efficace »
- Certains modèles ont trouvé la bonne réponse, mais avec une justification illogique
- Exemple : Perplexity Sonar a affirmé que « marcher consomme plus d’énergie alimentaire et génère donc davantage de pollution »
Deuxième série : test répété 10 fois
- Sur un total de 530 appels, le taux de bonnes réponses cohérentes s’est avéré encore plus faible
- Modèles à 10/10 (5 modèles) : Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
- Modèles à 8/10 (2 modèles) : GLM-5, Grok-4-1 Reasoning
- GPT-5 obtient 7/10, avec 3 erreurs liées à des raisonnements sur la consommation ou l’environnement
- 33 modèles ont donné 10 mauvaises réponses sur 10, dont GPT-4.1, GPT-5.1, Llama, Mistral, etc.
- Certains modèles avaient réussi au premier essai, mais se sont montrés instables lors des répétitions
- Sonar : 1 bonne réponse → 10 mauvaises réponses sur 10
- Kimi K2.5 : 5 bonnes réponses, 5 mauvaises réponses
- GLM-4.7 : 1 mauvaise réponse → amélioration à 6 bonnes réponses sur 10
Expérience comparative avec des humains
- La même question a été posée à 10 000 personnes via la plateforme Rapidata
- 71,5 % ont choisi « en voiture », ce qui a servi de taux moyen de bonnes réponses humaines
- Le taux de réussite de 70 % de GPT-5 est proche de la moyenne humaine
- Parmi les 53 modèles, seuls 7 dépassent la moyenne humaine, tandis que les 46 autres font moins bien
Principaux cas de raisonnement observés
- GLM-4.7 Flash : a formulé une logique claire, expliquant que « si l’on y va à pied, il faudrait pousser ou porter la voiture, ce qui est impossible »
- Claude Sonnet 4.5 : a compris que « s’il s’agit d’un lavage automatique, il faut conduire », mais a finalement choisi « à pied »
- Gemini 2.5 Pro : lorsqu’il répond correctement, il écrit avec justesse que « pour laver la voiture, elle doit être à la station » ; lorsqu’il se trompe, il reprend l’argument des « 50 m, c’est court »
Le problème de fiabilité de l’IA
- Bien qu’il s’agisse d’un problème simple ne demandant qu’une seule étape logique, seuls 5 modèles sur 53 obtiennent un sans-faute complet
- Les échecs se répartissent en trois catégories
- Toujours faux (33 modèles) : bloqués sur une heuristique centrée sur la distance
- Parfois justes (15 modèles) : capacité de raisonnement présente, mais manque de cohérence
- Toujours justes (5 modèles) : le raisonnement contextuel surmonte l’heuristique de façon stable
- Le fait que 90 % des modèles échouent même sur un problème simple suggère des risques pour la logique métier réelle ou les raisonnements à plusieurs étapes
Le rôle du context engineering
- Ce test a été réalisé dans un environnement « zéro contexte », afin d’évaluer la capacité de raisonnement pure des modèles
- L’échec de nombreux modèles s’explique par le fait que les heuristiques prennent le dessus sur le raisonnement contextuel
- Le context engineering permet d’atténuer ces erreurs en fournissant des exemples, des schémas métier et des informations pertinentes
- Dans une autre expérience d’Opper, l’ajout de contexte à un petit modèle open source a permis d’atteindre une qualité de niveau grand modèle avec 98,6 % de réduction des coûts
- Le problème de la station de lavage est simple, mais le travail réel exige ambiguïté et connaissance métier ; la conception du contexte est donc essentielle
Méthodologie de l’expérience
- Tous les modèles ont été testés via l’Opper LLM Gateway avec le même prompt
I want to wash my car. The car wash is 50 meters away. Should I walk or drive?
- Sans prompt système, avec choix forcé entre
drive et walk
- Un essai unique, puis 10 répétitions (530 appels au total), avec journalisation de tous les appels et conservation des textes de raisonnement
- Le groupe humain de comparaison a été interrogé via Rapidata, dans le même format, auprès de 10 000 personnes
- L’ensemble des données a été publié au format JSON
- Les résultats de l’essai unique, des 10 répétitions et des humains peuvent chacun être téléchargés
Aucun commentaire pour le moment.