- Une question-piège logique pour les LLM. Beaucoup de modèles passent à côté du présupposé qu’il faut amener la voiture au lave-auto et répondent qu’il faut y aller à pied
- Plusieurs modèles connus comme ChatGPT, Claude, Deepseek et Qwen montrent des réponses différentes et des erreurs de raisonnement
- Ce cas met en lumière les limites du raisonnement de bon sens et l’incohérence des LLM
Le problème du lave-auto à 50 mètres et les réactions des LLM
- La question est : « Si un lave-auto est à 50 mètres, faut-il y aller à pied ou en voiture ? », et elle teste le présupposé de base selon lequel il faut amener la voiture au lave-auto
- Perplexity : "50 m, c’est court, donc j’irais à pied. Déplacer une voiture sur une si courte distance est inefficace"
- ChatGPT 5.2 : "À 50 m, marcher est plus pratique. Cela prend 30 à 40 secondes. S’il fait mauvais ou si vous portez quelque chose de lourd, je prendrais la voiture ; sinon marcher est plus simple et rationnel"
- Claude : "À 50 m, je marcherais. Conduire serait absurde. Il faudrait presque freiner avant même d’avoir enclenché une vitesse. Cela prend 30 à 45 secondes et il n’y a même pas besoin de se garer"
- DeepSeek : "Si on y va à pied, il faudra revenir puis conduire la voiture. Pour la praticité, il vaut mieux conduire ; pour l’environnement, marcher (puis conduire ensuite)"
- Qwen3-Max : "Il faut absolument y aller à pied. Conduire sur une si courte distance n’est pas bon pour l’environnement. Marcher fait aussi faire de l’exercice"
Réactions et commentaires des utilisateurs
- « Pour y aller à pied, il faudrait porter la voiture »
- « Deepseek a quand même compris qu’il fallait amener la voiture au lave-auto »
- Gemini et ChatGPT reconnaissent parfois le piège de la question et donnent la bonne réponse
- À la question « Faut-il un tuyau de 50 m ? », GPT-OSS répond : « 25 m suffisent »
- « C’est le même genre de problème que le “problème des courses du développeur” »
10 commentaires
Gemini 3.1 dit d’y aller en voiture
ChatGPT 5.2 dit qu’y aller à pied est plus raisonnable.
J’ai testé, et voilà ce que ça donne
Gemini 3.0 Pro (Google AI Studio)
Bien sûr, il faut y aller en voiture ! 😄
Pour laver la voiture, il faut qu’elle soit à la station de lavage. Si vous y allez à pied, vous seul arriverez à la station, tandis que la voiture à laver restera au point de départ.
50 mètres, c’est très proche, mais pour bien nettoyer la voiture, emmenez-la avec vous !
Claude 4.5 Extended
50 mètres, c’est vraiment tout près !
Si vous allez laver votre voiture, il faut y aller en voiture. De toute façon, il faut bien amener la voiture à la station de lavage.
Pour environ 50 mètres :
Si vous y allez pour vérifier si la station est ouverte, vous pouvez y aller à pied puis ramener la voiture ensuite, mais en général, le plus simple est d’y aller directement en voiture.
ChatGPT 5.2 Thinking mode Heavy
Pour laver la voiture, il faut que la voiture soit à la station de lavage, donc en général il faut faire les 50 m en voiture. (Si vous y allez à pied, vous seul vous déplacez, donc vous ne pourrez pas laver la voiture.)
Cela dit, on peut distinguer proprement quelques cas particuliers.
Conclusion : telle que la question est posée, allez-y en voiture. Pour 50 m, la différence en carburant ou en temps est négligeable, et cela évite aussi d’avoir à transporter du matériel ou des affaires (produits de lavage).
La formulation de la phrase elle-même suggère qu’il est plus raisonnable d’y aller à pied. C’est comme une question de l’examen théorique du permis de conduire.
N’est-ce pas exagéré de prétendre que la chaîne de pensée (chain of thought) équivaut à l’inférence (inference) ou au raisonnement logique (reasoning) ?
> 50 mètres, c’est une distance qui se parcourt à pied en moins d’une minute, mais il faut y aller en voiture. Puisqu’on y va pour laver la voiture, il faut bien l’emmener ! 😄
Opus 4.6!
Avec GPT 5.2 (Instant), plus on l’utilise, plus il devient évident que c’est un petit modèle. Impossible de lui faire confiance, au point de finir par utiliser systématiquement un modèle Thinking même pour des requêtes ordinaires...
Réponse de GPT-5.2 :
Même en demandant à Thinking, il dit de marcher.
Marchez.
50 mètres, c’est une très courte distance ; conduire prendrait plus de temps que marcher si l’on tient compte du démarrage de la voiture, des manœuvres et du stationnement, et cela ajoute une usure inutile du moteur ainsi que des émissions. Ne conduisez que si vous avez une raison précise (des objets lourds à transporter, des problèmes de mobilité, des conditions météo sévères ou des questions de sécurité comme l’absence de trottoir ou la circulation).
Réactions sur Hacker News
En testant plusieurs LLM, certains cherchent à cerner les « limites de leur intelligence »
Sonnet, Opus 4.5 et Gemini 3 Pro ont tous répondu « il faut conduire », alors qu’OpenAI 5.2 reasoning a répondu « marche »
Puis, une fois précisé que « la voiture est à la maison et que la station de lavage est à 50 m », GPT 5.2 a répondu « conduis, mais comme la distance est courte, va lentement et prudemment »
Conclusion : fournir un contexte explicite est essentiel
Il est difficile de ne pas fausser le test sans suggérer où se trouve la voiture, mais Claude Opus 4.6 a quand même répondu correctement : « il faut conduire »
« Si Alice rentre du travail en voiture, passe chez elle prendre des papiers, puis doit aller dans un garage à 100 m ? » → réponse : « conduire »
Des informations qu’un humain peut inférer restent indispensables pour le modèle
Même dans un exemple aussi simple, il devient difficile de comprendre pourquoi il échoue dans des situations complexes
Il est plus probable que l’expression « walk or drive for <short distance> » soit fortement associée à “walk” dans les données d’entraînement
Cela expliquerait aussi pourquoi une invite plus longue, qui modifie le poids du contexte, produit la bonne réponse
Cette discussion avait déjà été abordée dans un billet de blog de Matt Shumer
Plusieurs points y sont résumés, comme la différence entre modèles gratuits et payants, ou encore le choix du modèle
Beaucoup réagissent en disant qu’« on ne poserait pas ce genre de question à un humain », mais en pratique les humains posent souvent eux aussi des questions ambiguës
Les LLM doivent être capables de les interpréter correctement
Dire « il faut mieux rédiger le prompt » ressemble pour certains à une esquive de responsabilité, un peu comme le « vous tenez mal votre téléphone » d’AntennaGate
Gemini fast a abordé le problème comme un dilemme « efficacité vs logique »
Il a répondu clairement : « pour laver la voiture, il faut de toute façon amener la voiture »
En revanche, il a proposé des exceptions conditionnelles, par exemple « si c’est pour acheter du parfum ou vérifier la file, alors on peut marcher »
L’astuce est devenue virale sur TikTok, et elle est maintenant patchée
Pour obtenir des résultats comparables, il suffit désormais de remplacer par « 45 m »
La nouvelle tendance est le problème du « verre retourné » (https://www.tiktok.com/t/ZP89Khv9t/)
En testant plusieurs variantes de prompt, certains ont constaté que le modèle avait tendance à choisir d’abord « walk », puis à rationaliser a posteriori cette décision
Mais si on lui demande d’« expliquer les conditions nécessaires avant de répondre »,
il arrive à la conclusion suivante : « pour laver une voiture, il faut amener la voiture à la station de lavage, donc il faut conduire »
Autrement dit, forcer le processus de réflexion produit des réponses plus logiques
Cela rappelle la distinction humaine entre System-1 et System-2
Si les fournisseurs de modèles n’intègrent pas ce type de formule dans le prompt par défaut, c’est probablement pour réduire le coût en tokens
Les modèles récents passent désormais la plupart du temps ce test
Ils ont toutefois tendance à employer des formulations prudentes du type « la plupart des stations de lavage nécessitent qu’il y ait une voiture à laver »
Cette ambiguïté montre aussi le caractère risqué de l’IA
On observe des échecs de raisonnement de bon sens similaires dans le domaine médical
Exemple : un cas où le modèle a conclu à tort qu’il fallait mesurer la tension artérielle sur le front d’un enfant sans bras (https://www.nature.com/articles/s41598-025-22940-0)
La bonne réponse était « commencer une perfusion »
C’est déjà remarquable d’être arrivé à ce niveau avec un simple apprentissage « sur livres »
La prochaine étape sera sans doute un apprentissage sur simulateurs médicaux
Une solution réaliste serait que plusieurs IA proposent une réponse, puis qu’un humain fasse une validation croisée
Si vous aimez ce genre de questions, SimpleBench est intéressant
En apparence, ce sont des exercices de manuel scolaire, mais en réalité beaucoup exigent du jugement de bon sens
C’est un benchmark qui teste la capacité à ne pas se laisser piéger par de simples motifs linguistiques et à mobiliser une intuition plus humaine
Certains, à propos de la même question
« si la station de lavage est à 50 mètres, est-ce qu’on y va à pied ou en voiture ? »
ont pareillement répondu au début qu’il fallait y aller à pied, mais
si on active le mode réflexion,
ils disent que cela dépend des conditions, ou que pour laver la voiture il faut l’y amener.
Une autre réponse qui me paraissait plus rationnelle, c’est que
moi-même, en posant cette question, je n’avais même pas réfléchi à la raison pour laquelle on allait à la station de lavage, et
une partie des réponses a demandé en retour :
le but d’aller à la station de lavage, est-ce d’acheter des articles pour la voiture ?
J’ai simplement copié tel quel la question du texte principal, mais
il n’y a pas de complément d’objet.
Et en réalité,
les humains omettent eux aussi dans leur tête le but ou le sujet,
le transmettent à l’autre,
et espèrent qu’il comprendra correctement ;
mais l’interlocuteur, selon sa manière de raisonner,
comprend autre chose que l’intention initiale
et finit par agir différemment....
Si le problème est réellement cette phrase telle quelle,
même les humains jugeront différemment selon leur subjectivité...
donc plutôt que d’être déçu par la réponse de l’IA, je me dis que
la nécessité de donner des consignes claires et de préciser le sujet et l’objet vaut tout autant entre humains ;
quand on n’obtient pas la valeur attendue maximale
à cause d’un prompt ambigu,
cela me fait penser à ceux qui disent qu’il est encore trop tôt pour l’IA, ou qu’elle donne forcément de mauvaises réponses.
👍👍👍