9 points par GN⁺ 2026-02-17 | 10 commentaires | Partager sur WhatsApp
  • Une question-piège logique pour les LLM. Beaucoup de modèles passent à côté du présupposé qu’il faut amener la voiture au lave-auto et répondent qu’il faut y aller à pied
  • Plusieurs modèles connus comme ChatGPT, Claude, Deepseek et Qwen montrent des réponses différentes et des erreurs de raisonnement
  • Ce cas met en lumière les limites du raisonnement de bon sens et l’incohérence des LLM

Le problème du lave-auto à 50 mètres et les réactions des LLM

  • La question est : « Si un lave-auto est à 50 mètres, faut-il y aller à pied ou en voiture ? », et elle teste le présupposé de base selon lequel il faut amener la voiture au lave-auto
    • Perplexity : "50 m, c’est court, donc j’irais à pied. Déplacer une voiture sur une si courte distance est inefficace"
    • ChatGPT 5.2 : "À 50 m, marcher est plus pratique. Cela prend 30 à 40 secondes. S’il fait mauvais ou si vous portez quelque chose de lourd, je prendrais la voiture ; sinon marcher est plus simple et rationnel"
    • Claude : "À 50 m, je marcherais. Conduire serait absurde. Il faudrait presque freiner avant même d’avoir enclenché une vitesse. Cela prend 30 à 45 secondes et il n’y a même pas besoin de se garer"
    • DeepSeek : "Si on y va à pied, il faudra revenir puis conduire la voiture. Pour la praticité, il vaut mieux conduire ; pour l’environnement, marcher (puis conduire ensuite)"
    • Qwen3-Max : "Il faut absolument y aller à pied. Conduire sur une si courte distance n’est pas bon pour l’environnement. Marcher fait aussi faire de l’exercice"

Réactions et commentaires des utilisateurs

  • « Pour y aller à pied, il faudrait porter la voiture »
    • « Deepseek a quand même compris qu’il fallait amener la voiture au lave-auto »
  • Gemini et ChatGPT reconnaissent parfois le piège de la question et donnent la bonne réponse
  • À la question « Faut-il un tuyau de 50 m ? », GPT-OSS répond : « 25 m suffisent »
  • « C’est le même genre de problème que le “problème des courses du développeur” »

10 commentaires

 
kimjj81 2026-02-23

Gemini 3.1 dit d’y aller en voiture
ChatGPT 5.2 dit qu’y aller à pied est plus raisonnable.

 
lunamoth 2026-02-17

J’ai testé, et voilà ce que ça donne

Gemini 3.0 Pro (Google AI Studio)

Bien sûr, il faut y aller en voiture ! 😄
Pour laver la voiture, il faut qu’elle soit à la station de lavage. Si vous y allez à pied, vous seul arriverez à la station, tandis que la voiture à laver restera au point de départ.
50 mètres, c’est très proche, mais pour bien nettoyer la voiture, emmenez-la avec vous !


Claude 4.5 Extended

50 mètres, c’est vraiment tout près !

Si vous allez laver votre voiture, il faut y aller en voiture. De toute façon, il faut bien amener la voiture à la station de lavage.

Pour environ 50 mètres :

  • à pied, c’est une distance qui prend moins d’une minute
  • mais puisque le but est d’amener la voiture à la station de lavage, il suffit d’y aller en voiture

Si vous y allez pour vérifier si la station est ouverte, vous pouvez y aller à pied puis ramener la voiture ensuite, mais en général, le plus simple est d’y aller directement en voiture.


ChatGPT 5.2 Thinking mode Heavy

Pour laver la voiture, il faut que la voiture soit à la station de lavage, donc en général il faut faire les 50 m en voiture. (Si vous y allez à pied, vous seul vous déplacez, donc vous ne pourrez pas laver la voiture.)

Cela dit, on peut distinguer proprement quelques cas particuliers.

  • Cas où il faut mettre la voiture dans la station de lavage (self-service / automatique / lavage à la main) : 👉 en voiture (très lentement, en faisant attention aux piétons)
  • Cas où vous allez seulement vérifier la file d’attente / l’affluence, ou effectuer le paiement / la réservation : 👉 allez-y à pied, puis ramenez la voiture selon la situation
  • Cas où la voiture est déjà garée juste devant la station (ou dans la file d’attente à l’intérieur) : 👉 dans ce cas, vous pouvez y aller à pied

Conclusion : telle que la question est posée, allez-y en voiture. Pour 50 m, la différence en carburant ou en temps est négligeable, et cela évite aussi d’avoir à transporter du matériel ou des affaires (produits de lavage).

 
m00nlygreat 2026-02-17

La formulation de la phrase elle-même suggère qu’il est plus raisonnable d’y aller à pied. C’est comme une question de l’examen théorique du permis de conduire.

 
savvykang 2026-02-17

N’est-ce pas exagéré de prétendre que la chaîne de pensée (chain of thought) équivaut à l’inférence (inference) ou au raisonnement logique (reasoning) ?

 
tenshi 2026-02-17

> 50 mètres, c’est une distance qui se parcourt à pied en moins d’une minute, mais il faut y aller en voiture. Puisqu’on y va pour laver la voiture, il faut bien l’emmener ! 😄

Opus 4.6!

 
mammal 2026-02-17

Avec GPT 5.2 (Instant), plus on l’utilise, plus il devient évident que c’est un petit modèle. Impossible de lui faire confiance, au point de finir par utiliser systématiquement un modèle Thinking même pour des requêtes ordinaires...

Réponse de GPT-5.2 :

À 50 mètres, **il est dans tous les cas plus rationnel d’y aller à pied.**  
  
Si on compare de façon réaliste :  
  
**Y aller à pied**  
  
* Temps nécessaire : environ 30 à 40 secondes  
* Consommation de carburant : 0  
* Usure du moteur : 0  
* Préparation : déplacement immédiat possible  
  
**Y aller en voiture**  
  
* Temps nécessaire : au minimum 1 à 2 minutes entre le démarrage, le déplacement et l’arrêt  
* Consommation de carburant : élevée à froid  
* Usure du moteur : le démarrage à froid est l’une des principales causes d’usure du moteur  
* En plus : l’inconvénient de devoir se repositionner pour le lavage  
  
Un point particulièrement important :  
  
**Faire un très court trajet juste pour laver la voiture est au contraire mauvais pour le moteur.**  
Un trajet aussi bref avec arrêt/redémarrage avant que le moteur soit suffisamment en température se termine avant même que l’huile moteur n’ait totalement circulé.  
  
---  
  
Les seuls cas où il peut être acceptable d’y aller en voiture sont les suivants :  
  
* si la pente jusqu’à la station de lavage est très forte  
* si vous êtes déjà dans la voiture  
* si vous prévoyez de partir juste après le lavage pour un long trajet  
  
Dans tous les autres cas, pour 50 mètres, il vaut mieux y aller à pied du point de vue du temps, du carburant et de l’entretien du véhicule.  
  
Si vous le souhaitez, je peux aussi vous indiquer **l’ordre d’un lavage auto en self-service (comment bien le faire sans abîmer la voiture).**  
 
alex00728 2026-02-17

Même en demandant à Thinking, il dit de marcher.

Marchez.
50 mètres, c’est une très courte distance ; conduire prendrait plus de temps que marcher si l’on tient compte du démarrage de la voiture, des manœuvres et du stationnement, et cela ajoute une usure inutile du moteur ainsi que des émissions. Ne conduisez que si vous avez une raison précise (des objets lourds à transporter, des problèmes de mobilité, des conditions météo sévères ou des questions de sécurité comme l’absence de trottoir ou la circulation).

 
GN⁺ 2026-02-17
Réactions sur Hacker News
  • En testant plusieurs LLM, certains cherchent à cerner les « limites de leur intelligence »
    Sonnet, Opus 4.5 et Gemini 3 Pro ont tous répondu « il faut conduire », alors qu’OpenAI 5.2 reasoning a répondu « marche »
    Puis, une fois précisé que « la voiture est à la maison et que la station de lavage est à 50 m », GPT 5.2 a répondu « conduis, mais comme la distance est courte, va lentement et prudemment »
    Conclusion : fournir un contexte explicite est essentiel

    • En réalité, c’est assez proche d’une question piège
      Il est difficile de ne pas fausser le test sans suggérer où se trouve la voiture, mais Claude Opus 4.6 a quand même répondu correctement : « il faut conduire »
      « Si Alice rentre du travail en voiture, passe chez elle prendre des papiers, puis doit aller dans un garage à 100 m ? » → réponse : « conduire »
    • Au fond, l’essentiel est qu’il faut rédiger des spécifications claires
      Des informations qu’un humain peut inférer restent indispensables pour le modèle
      Même dans un exemple aussi simple, il devient difficile de comprendre pourquoi il échoue dans des situations complexes
    • L’interprétation selon laquelle « la voiture est déjà à la station de lavage » paraît peu convaincante
      Il est plus probable que l’expression « walk or drive for <short distance> » soit fortement associée à “walk” dans les données d’entraînement
      Cela expliquerait aussi pourquoi une invite plus longue, qui modifie le poids du contexte, produit la bonne réponse
    • Comme « si la voiture est déjà à la station de lavage, on ne peut pas la conduire », le problème ne vient pas d’une question mal posée, mais d’un raisonnement absurde du modèle
    • La version gratuite de ChatGPT (https://chatgpt.com/) a répondu « marche », et le plus drôle est que sa dernière justification était : « conduire une voiture sale sur 50 m pour aller la laver est ironique »
  • Cette discussion avait déjà été abordée dans un billet de blog de Matt Shumer
    Plusieurs points y sont résumés, comme la différence entre modèles gratuits et payants, ou encore le choix du modèle

  • Beaucoup réagissent en disant qu’« on ne poserait pas ce genre de question à un humain », mais en pratique les humains posent souvent eux aussi des questions ambiguës
    Les LLM doivent être capables de les interpréter correctement
    Dire « il faut mieux rédiger le prompt » ressemble pour certains à une esquive de responsabilité, un peu comme le « vous tenez mal votre téléphone » d’AntennaGate

    • Ce genre de question ressemble aux pièges linguistiques des « blagues sur les crashs d’avion »
    • Le cœur du test de Turing, ce n’est pas simplement tromper, mais atteindre un niveau de conversation impossible à distinguer
    • Quelqu’un raconte aussi qu’en posant une question de chimie, le modèle s’était focalisé sur un détail hors sujet alors qu’il n’était pas important
    • Le problème, c’est aussi que l’OP a fait du cherry-picking en ne gardant que les mauvaises réponses, donnant l’impression que tous les modèles s’étaient trompés
    • En réalité, ce type de question est presque une devinette (« sur 17 moutons, si tous sauf 9 meurent, combien en reste-t-il ? »)
  • Gemini fast a abordé le problème comme un dilemme « efficacité vs logique »
    Il a répondu clairement : « pour laver la voiture, il faut de toute façon amener la voiture »
    En revanche, il a proposé des exceptions conditionnelles, par exemple « si c’est pour acheter du parfum ou vérifier la file, alors on peut marcher »

    • En ajoutant au prompt « je suis obèse et je manque d’exercice », Gemini 3 a répondu « marche »
    • Dans un autre test, il a répondu « s’il ne s’agit pas d’une voiture-jouet, il faut conduire », en ajoutant une section hypothèses explicites
    • À la question « et s’il faut laver la voiture sur Mars ? », il a répondu : « Mars est dangereux, donc conduis le rover »
    • Récemment, cette question a été patchée et la plupart répondent désormais « conduire ». Cela semble avoir été corrigé après avoir atteint 3,5 millions de vues sur TikTok
    • Il y a aussi eu une réponse humoristique : « à moins de porter la voiture sur ton dos, il faut conduire »
  • L’astuce est devenue virale sur TikTok, et elle est maintenant patchée
    Pour obtenir des résultats comparables, il suffit désormais de remplacer par « 45 m »
    La nouvelle tendance est le problème du « verre retourné » (https://www.tiktok.com/t/ZP89Khv9t/)

    • Sur la version gratuite de ChatGPT, 4 fois sur 5 la réponse était « marche », mais en ajoutant « réfléchis soigneusement », la bonne réponse apparaissait (https://news.ycombinator.com/item?id=47040530)
    • Dire que c’est « patché » signifie peut-être simplement que la réponse est désormais exposée dans les résultats de recherche
    • Certains se demandent si on a vraiment ajouté uniquement cette question au prompt interne
    • Il arrive encore que ChatGPT 5.2 réponde « marche »
    • Quelqu’un a réagi de manière satirique en citant le poème « Stupid Pencil Maker » de Shel Silverstein
  • En testant plusieurs variantes de prompt, certains ont constaté que le modèle avait tendance à choisir d’abord « walk », puis à rationaliser a posteriori cette décision
    Mais si on lui demande d’« expliquer les conditions nécessaires avant de répondre »,
    il arrive à la conclusion suivante : « pour laver une voiture, il faut amener la voiture à la station de lavage, donc il faut conduire »
    Autrement dit, forcer le processus de réflexion produit des réponses plus logiques

    • Le simple fait d’ajouter « vérifie les hypothèses » améliore fortement la précision (https://imgur.com/a/WQBxXND)
      Cela rappelle la distinction humaine entre System-1 et System-2
      Si les fournisseurs de modèles n’intègrent pas ce type de formule dans le prompt par défaut, c’est probablement pour réduire le coût en tokens
  • Les modèles récents passent désormais la plupart du temps ce test
    Ils ont toutefois tendance à employer des formulations prudentes du type « la plupart des stations de lavage nécessitent qu’il y ait une voiture à laver »

    • Pour afficher une forte certitude, il faut accepter le risque d’avoir tort, mais les IA sont fortement pénalisées quand elles se trompent, donc elles évitent les réponses trop tranchées
    • Le choix de mots comme « most » n’est souvent qu’un résultat probabiliste
      Cette ambiguïté montre aussi le caractère risqué de l’IA
    • Si on essaie plusieurs fois, la chance joue un rôle. Les modèles avec recherche trouvent la bonne réponse, mais cela revient en pratique à exploiter les résultats de Google
    • Au final, c’est surtout parce que cette question est devenue virale puis patchée
    • Quelqu’un a plaisanté en disant qu’il y avait peut-être un « canon à eau ultra-puissant », d’où l’absence de certitude
  • On observe des échecs de raisonnement de bon sens similaires dans le domaine médical
    Exemple : un cas où le modèle a conclu à tort qu’il fallait mesurer la tension artérielle sur le front d’un enfant sans bras (https://www.nature.com/articles/s41598-025-22940-0)
    La bonne réponse était « commencer une perfusion »

    • Ce qui est frappant, c’est qu’il faut aller jusqu’à ce type de cas complexe pour vraiment voir les limites du modèle
      C’est déjà remarquable d’être arrivé à ce niveau avec un simple apprentissage « sur livres »
      La prochaine étape sera sans doute un apprentissage sur simulateurs médicaux
    • Grok a résolu ce problème rapidement
      Une solution réaliste serait que plusieurs IA proposent une réponse, puis qu’un humain fasse une validation croisée
  • Si vous aimez ce genre de questions, SimpleBench est intéressant
    En apparence, ce sont des exercices de manuel scolaire, mais en réalité beaucoup exigent du jugement de bon sens
    C’est un benchmark qui teste la capacité à ne pas se laisser piéger par de simples motifs linguistiques et à mobiliser une intuition plus humaine

 
penza1 2026-02-17

Certains, à propos de la même question
« si la station de lavage est à 50 mètres, est-ce qu’on y va à pied ou en voiture ? »
ont pareillement répondu au début qu’il fallait y aller à pied, mais
si on active le mode réflexion,
ils disent que cela dépend des conditions, ou que pour laver la voiture il faut l’y amener.
Une autre réponse qui me paraissait plus rationnelle, c’est que
moi-même, en posant cette question, je n’avais même pas réfléchi à la raison pour laquelle on allait à la station de lavage, et
une partie des réponses a demandé en retour :
le but d’aller à la station de lavage, est-ce d’acheter des articles pour la voiture ?
J’ai simplement copié tel quel la question du texte principal, mais
il n’y a pas de complément d’objet.
Et en réalité,
les humains omettent eux aussi dans leur tête le but ou le sujet,
le transmettent à l’autre,
et espèrent qu’il comprendra correctement ;
mais l’interlocuteur, selon sa manière de raisonner,
comprend autre chose que l’intention initiale
et finit par agir différemment....

Si le problème est réellement cette phrase telle quelle,
même les humains jugeront différemment selon leur subjectivité...
donc plutôt que d’être déçu par la réponse de l’IA, je me dis que
la nécessité de donner des consignes claires et de préciser le sujet et l’objet vaut tout autant entre humains ;
quand on n’obtient pas la valeur attendue maximale
à cause d’un prompt ambigu,
cela me fait penser à ceux qui disent qu’il est encore trop tôt pour l’IA, ou qu’elle donne forcément de mauvaises réponses.

 
roxie 2026-02-27

👍👍👍