10 points par GN⁺ 2026-02-25 | 3 commentaires | Partager sur WhatsApp
  • Les résultats d’un test mené sur 53 modèles d’IA majeurs montrent que la plupart échouent à un raisonnement élémentaire
  • La bonne réponse est « en voiture », mais 42 modèles sur 53 ont choisi « à pied »
  • Seuls 5 modèles, dont Claude Opus 4.6, la série Gemini 3 et Grok-4, ont donné une réponse correcte 100 % cohérente même sur 10 répétitions
  • GPT-5 n’a répondu correctement que 7 fois sur 10, soit un niveau jugé proche du taux moyen de bonnes réponses chez les humains (71,5 %)
  • L’expérience met en évidence le manque de capacité de raisonnement cohérent des IA et les limites du jugement fondé sur le contexte, tout en soulignant l’importance du « context engineering » pour y remédier

Vue d’ensemble du test du lavage auto

  • Le test reposait sur la question : « Si la station de lavage est à 50 m, faut-il y aller à pied ou en voiture ? »
    • La bonne réponse est « en voiture », car pour laver une voiture, elle doit être présente à la station de lavage
  • 53 modèles ont été évalués dans les mêmes conditions via le LLM Gateway d’Opper
    • Sans prompt système, avec obligation de choisir entre walk ou drive
    • Après un test unique par modèle, un test répété 10 fois a été effectué pour vérifier la cohérence

Résultats du premier essai unique

  • Sur 53 modèles, 11 seulement ont donné la bonne réponse (drive), tandis que 42 ont donné la mauvaise réponse (walk)
  • Modèles ayant répondu correctement : Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
  • Des écarts de performance selon les grandes familles de modèles — Anthropic, OpenAI, Google, xAI, Perplexity, Meta, Mistral, etc. — ont été constatés
    • Anthropic : 1/9 (seul Opus 4.6 a répondu correctement)
    • OpenAI : 1/12 (seul GPT-5 a répondu correctement)
    • Meta (Llama), Mistral, DeepSeek, etc. ont tous échoué
  • La plupart des erreurs venaient d’une heuristique erronée centrée sur la distance : « 50 m est une courte distance, donc marcher est plus efficace »
  • Certains modèles ont trouvé la bonne réponse, mais avec une justification illogique
    • Exemple : Perplexity Sonar a affirmé que « marcher consomme plus d’énergie alimentaire et génère donc davantage de pollution »

Deuxième série : test répété 10 fois

  • Sur un total de 530 appels, le taux de bonnes réponses cohérentes s’est avéré encore plus faible
  • Modèles à 10/10 (5 modèles) : Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
  • Modèles à 8/10 (2 modèles) : GLM-5, Grok-4-1 Reasoning
  • GPT-5 obtient 7/10, avec 3 erreurs liées à des raisonnements sur la consommation ou l’environnement
  • 33 modèles ont donné 10 mauvaises réponses sur 10, dont GPT-4.1, GPT-5.1, Llama, Mistral, etc.
  • Certains modèles avaient réussi au premier essai, mais se sont montrés instables lors des répétitions
    • Sonar : 1 bonne réponse → 10 mauvaises réponses sur 10
    • Kimi K2.5 : 5 bonnes réponses, 5 mauvaises réponses
    • GLM-4.7 : 1 mauvaise réponse → amélioration à 6 bonnes réponses sur 10

Expérience comparative avec des humains

  • La même question a été posée à 10 000 personnes via la plateforme Rapidata
    • 71,5 % ont choisi « en voiture », ce qui a servi de taux moyen de bonnes réponses humaines
  • Le taux de réussite de 70 % de GPT-5 est proche de la moyenne humaine
  • Parmi les 53 modèles, seuls 7 dépassent la moyenne humaine, tandis que les 46 autres font moins bien

Principaux cas de raisonnement observés

  • GLM-4.7 Flash : a formulé une logique claire, expliquant que « si l’on y va à pied, il faudrait pousser ou porter la voiture, ce qui est impossible »
  • Claude Sonnet 4.5 : a compris que « s’il s’agit d’un lavage automatique, il faut conduire », mais a finalement choisi « à pied »
  • Gemini 2.5 Pro : lorsqu’il répond correctement, il écrit avec justesse que « pour laver la voiture, elle doit être à la station » ; lorsqu’il se trompe, il reprend l’argument des « 50 m, c’est court »

Le problème de fiabilité de l’IA

  • Bien qu’il s’agisse d’un problème simple ne demandant qu’une seule étape logique, seuls 5 modèles sur 53 obtiennent un sans-faute complet
  • Les échecs se répartissent en trois catégories
    • Toujours faux (33 modèles) : bloqués sur une heuristique centrée sur la distance
    • Parfois justes (15 modèles) : capacité de raisonnement présente, mais manque de cohérence
    • Toujours justes (5 modèles) : le raisonnement contextuel surmonte l’heuristique de façon stable
  • Le fait que 90 % des modèles échouent même sur un problème simple suggère des risques pour la logique métier réelle ou les raisonnements à plusieurs étapes

Le rôle du context engineering

  • Ce test a été réalisé dans un environnement « zéro contexte », afin d’évaluer la capacité de raisonnement pure des modèles
  • L’échec de nombreux modèles s’explique par le fait que les heuristiques prennent le dessus sur le raisonnement contextuel
  • Le context engineering permet d’atténuer ces erreurs en fournissant des exemples, des schémas métier et des informations pertinentes
    • Dans une autre expérience d’Opper, l’ajout de contexte à un petit modèle open source a permis d’atteindre une qualité de niveau grand modèle avec 98,6 % de réduction des coûts
  • Le problème de la station de lavage est simple, mais le travail réel exige ambiguïté et connaissance métier ; la conception du contexte est donc essentielle

Méthodologie de l’expérience

  • Tous les modèles ont été testés via l’Opper LLM Gateway avec le même prompt
    • I want to wash my car. The car wash is 50 meters away. Should I walk or drive?
    • Sans prompt système, avec choix forcé entre drive et walk
    • Un essai unique, puis 10 répétitions (530 appels au total), avec journalisation de tous les appels et conservation des textes de raisonnement
  • Le groupe humain de comparaison a été interrogé via Rapidata, dans le même format, auprès de 10 000 personnes
  • L’ensemble des données a été publié au format JSON
    • Les résultats de l’essai unique, des 10 répétitions et des humains peuvent chacun être téléchargés

3 commentaires

 
armila 2026-02-26

Gemini Pro,
avait répondu que si tu pouvais amener ta voiture, tu pouvais aussi y aller à pied, ce qui m’a fait énormément rire.

 
grenade 2026-02-27

C'est une réponse pleine d'esprit, haha.

 
GN⁺ 2026-02-25
Avis Hacker News
  • Il est intéressant que le résultat des réponses humaines corresponde exactement à celui de ChatGPT
    En pratique, cela semble signifier que le « service de réponses humaines » est pratiquement mort. Au final, les gens trouveront un moyen de refiler le travail à l’IA, quelle qu’en soit la qualité

    • Cela ressemble à un hasard, mais en réalité les réponses humaines n’ont pas été collectées ainsi
      Rapidata intègre des micro-sondages dans des apps comme Duolingo ou des jeux mobiles afin que les utilisateurs y répondent à la place d’une publicité. Les répondants sont vérifiés et n’ont aucune incitation à trouver la bonne réponse
    • Le modèle par défaut de ChatGPT est GPT‑5.2 Instant. Celui qui a correspondu au résultat humain est le modèle GPT‑5
      Il est intéressant de voir, comme dans le commentaire ci-dessus, à quel point on peut tirer des conclusions avec une assurance infondée
    • Ce genre de chose arrivait déjà souvent avec des services tiers de travail humain
  • Je maintiens un ensemble d’évaluation personnel composé de questions du type « misguided attention »
    Le cœur de ces problèmes n’est pas un échec logique, mais l’ambiguïté et le manque de contexte. Les humains complètent des présupposés implicites, alors que les modèles n’y parviennent pas
    La plupart des exemples censés montrer que « l’IA se trompe même sur des questions simples » sont formulés de manière à induire un biais statistique. Il suffit de modifier légèrement le contexte pour inverser le résultat
    Autrement dit, l’échec du modèle vient de sa sensibilité au cadrage, pas d’une absence de capacité de raisonnement

    • En gros, cela veut dire que l’IA est bancale. Si on l’entraîne pour mieux répondre à certaines questions, elle se dégrade ailleurs. Et cela va continuer ainsi
    • Certains soutiennent que dire qu’elle est « sensible au cadrage et aux biais de distribution » revient simplement à reformuler une absence de capacité de raisonnement
    • L’ensemble a l’air intéressant. Si possible, je serais curieux de savoir si tu pourrais partager les questions
    • Ce serait bien de publier cet ensemble d’évaluation, surtout pour voir quelles sont les questions les plus intéressantes
  • Le score humain de 71,5 % montre l’ambiguïté du problème
    La question « faut-il aller à pied ou en voiture jusqu’au car wash ? » peut être interprétée comme « est-ce qu’il faut vraiment conduire pour une distance aussi courte ? ». Ce n’est donc pas juste un problème de logique, mais un problème d’interprétation pragmatique

    • La question n’est pas ambiguë au départ ; c’est plutôt la situation conversationnelle elle-même qui fait office d’information
      Les gens supposent que la question vient d’une situation réelle et l’interprètent selon le principe de coopération en conversation (le principe de coopération de Grice).
      Donc, tant qu’ils ne comprennent pas qu’il s’agit d’une question-piège, ils se disent : « il doit bien y avoir une raison d’y aller à pied »
    • On voit souvent ce genre de ratio 70:30 dans d’autres statistiques sociales. Il se peut tout simplement que 30 % des gens aient un raisonnement insuffisant
    • Pourtant, la question contient bien « je veux laver ma voiture. Le car wash est à 50 m ». Donc l’information est suffisamment explicite
    • Si un service comme Rapidata est du type Mechanical Turk, il est possible que les répondants n’aient pas lu correctement la question
    • Le problème venait du fait d’avoir oublié la première partie de la phrase : « je veux laver ma voiture »
  • Si on dit d’abord au modèle Sonnet 4.6 qu’il s’agit d’un « test d’intelligence », il donne la bonne réponse à 100 %
    Les modèles ont tendance à supposer que les questions humaines décrivent des situations réelles ; indiquer explicitement qu’il s’agit d’un test réduit donc les erreurs
    On observe un phénomène similaire avec les agents de code. Une question peut sembler absurde au départ, puis devenir compréhensible une fois les fichiers de code chargés

    • Le fond du problème ici, c’est un échec du raisonnement / de la planification. Le modèle tend à répondre sans vérifier son résultat
      On retrouve le même phénomène dans de vrais problèmes à résoudre, comme la conception logicielle.
      Les LLM reposent toujours sur du pattern matching et n’analysent pas le sens du résultat
    • J’ai fait une expérience intéressante : avec l’indice placé au début, 3/3 bonnes réponses ; à la fin, 1,5/3 ; sans indice, 0/3
    • C’est un problème de pertinence. La mention « on est en train de tester » sert de signal disant « ne fais pas confiance au contexte »
      Le modèle suppose en général qu’il s’agit d’une situation réelle ; lui apprendre ce type de signal implicite peut améliorer la précision, mais réduire l’affinité avec l’utilisateur
    • Le simple ajout de « Exam Question: {prompt} » suffit pour que ChatGPT trouve la bonne réponse. Mais Llama3.3 et gpt‑oss‑120b échouent toujours
  • Si on ajoute la formule « vérifie tes hypothèses » à la fin de la question, la plupart des modèles donnent la bonne réponse
    Si une simple formule suffit à faire disparaître l’erreur, certains supposent que si les fournisseurs d’IA ne l’ajoutent pas au prompt système, c’est pour des raisons d’optimisation des coûts
    Une discussion associée est résumée dans un commentaire précédent

    • Moi aussi, avec Claude ou Codex, quand je demande après coup « qu’est-ce qu’on a raté ? », j’obtiens souvent des améliorations supplémentaires
  • La conversation « Car Wash Test » vue dans Google Search était assez drôle
    La plupart des IA répondent « marche 50 m », alors que la bonne réponse est « il faut conduire la voiture jusqu’au car wash »
    Ce test montre bien la différence entre le pattern matching et le raisonnement réel

    • Les LLM sont inutilement verbeux, comme une dissertation de lycéen qui remplit du volume
    • Je me demande si le LLM de Google Search est vraiment devenu plus intelligent, ou s’il est simplement plus sensible aux tendances récentes
    • La réponse de Gemini était drôle aussi. Elle parlait d’un « dilemme efficacité vs logique » et expliquait que « si on y va à pied, il faudra de toute façon revenir chercher la voiture, donc il faut conduire »
    • Autrefois, quand on demandait la date à un LLM, il donnait la date correspondant à son entraînement ; maintenant il donne la date réelle. Il exploite donc la recherche web
  • Le point de référence humain obtenu via Rapidata était de 71,5 % en faveur de “conduire”
    La bonne réponse serait une question de clarification demandant « où se trouve la voiture ? ».
    Pourtant, même en disant à ChatGPT « ma voiture se trouve à 50 m du car wash », il se trompe encore

    • « Où se trouve la voiture ? » n’est pas une question de clarification ; c’est déjà une hypothèse incluse dans les choix possibles
    • Il est possible que 30 % des répondants Rapidata soient des bots
    • Rapidata est intégré à plus de 3 000 applications et compte plus de 10 millions d’utilisateurs participants. Il recueille des réponses en temps réel dans 160 pays
    • Il existe aussi une alternative créative : « ne bouge pas et appelle le car wash ». C’est au moins plus rationnel que de partir à pied en laissant la voiture derrière soi
    • Claude répond aussi « allez-y à pied » à la question « faut-il aller à pied ou en voiture chez le garagiste à 200 m pour changer une bougie ? ». C’est donc un problème de rupture de contexte
  • Cette question n’est pas simple. Une personne intelligente se demandera pourquoi on pose cette question et s’il ne manque pas du contexte
    Donc la bonne réponse n’est peut-être ni « conduire » ni « à pied », mais « merci de clarifier la question »

    • Même un léger ajout de contexte améliore fortement les performances du modèle. Par exemple, on peut préciser : « un car wash est un bâtiment dans lequel une voiture doit passer »
      Exemple associé : image de liquide de lavage Rain‑x
    • Ce type de question est tellement évident que les humains soupçonnent un piège
    • Les LLM cherchent à répondre tout de suite, alors que les humains commencent par poser une question de clarification
    • En réalité, cela ressemble à un problème de conventions d’expression en anglais. Une réaction du type « il faut me dire où tu veux aller pour que je puisse t’aider » semble naturelle
    • La plupart des gens réagiraient par un « conduire ? », en se disant que c’est forcément une blague
  • Le modèle Sonnet 4.6 a un meilleur score de bon sens, mais il est plus petit qu’Opus
    En mode Opus 4.6 Extended Reasoning, il a répondu « allez-y à pied », alors que l’auteur dit avoir obtenu 10/10 bonnes réponses.
    Il est probable que la fonction mémoire de l’application ait été injectée automatiquement dans le prompt, perturbant ainsi le raisonnement. En désactivant la mémoire et les infos bio, la réponse redevient « conduisez »
    Autrement dit, des pré-prompts cachés peuvent fausser le raisonnement du modèle

    • J’ai aussi testé Opus 4.6 le jour de sa sortie, et il échouait encore. Même pour les abonnés payants, il existe des différences de qualité entre modèles
    • Selon la model card d’Opus 4.6, il existe un phénomène où un effort de raisonnement excessif rationalise une mauvaise réponse. L’entraînement RL semble avoir surchauffé sur ce point
    • Neuf modèles Claude, dont Sonnet 4.6, ont été testés ; les résultats sont visibles dans la galerie liée