10 points par GN⁺ 2026-02-25 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Les résultats d’un test mené sur 53 modèles d’IA majeurs montrent que la plupart échouent à un raisonnement élémentaire
  • La bonne réponse est « en voiture », mais 42 modèles sur 53 ont choisi « à pied »
  • Seuls 5 modèles, dont Claude Opus 4.6, la série Gemini 3 et Grok-4, ont donné une réponse correcte 100 % cohérente même sur 10 répétitions
  • GPT-5 n’a répondu correctement que 7 fois sur 10, soit un niveau jugé proche du taux moyen de bonnes réponses chez les humains (71,5 %)
  • L’expérience met en évidence le manque de capacité de raisonnement cohérent des IA et les limites du jugement fondé sur le contexte, tout en soulignant l’importance du « context engineering » pour y remédier

Vue d’ensemble du test du lavage auto

  • Le test reposait sur la question : « Si la station de lavage est à 50 m, faut-il y aller à pied ou en voiture ? »
    • La bonne réponse est « en voiture », car pour laver une voiture, elle doit être présente à la station de lavage
  • 53 modèles ont été évalués dans les mêmes conditions via le LLM Gateway d’Opper
    • Sans prompt système, avec obligation de choisir entre walk ou drive
    • Après un test unique par modèle, un test répété 10 fois a été effectué pour vérifier la cohérence

Résultats du premier essai unique

  • Sur 53 modèles, 11 seulement ont donné la bonne réponse (drive), tandis que 42 ont donné la mauvaise réponse (walk)
  • Modèles ayant répondu correctement : Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
  • Des écarts de performance selon les grandes familles de modèles — Anthropic, OpenAI, Google, xAI, Perplexity, Meta, Mistral, etc. — ont été constatés
    • Anthropic : 1/9 (seul Opus 4.6 a répondu correctement)
    • OpenAI : 1/12 (seul GPT-5 a répondu correctement)
    • Meta (Llama), Mistral, DeepSeek, etc. ont tous échoué
  • La plupart des erreurs venaient d’une heuristique erronée centrée sur la distance : « 50 m est une courte distance, donc marcher est plus efficace »
  • Certains modèles ont trouvé la bonne réponse, mais avec une justification illogique
    • Exemple : Perplexity Sonar a affirmé que « marcher consomme plus d’énergie alimentaire et génère donc davantage de pollution »

Deuxième série : test répété 10 fois

  • Sur un total de 530 appels, le taux de bonnes réponses cohérentes s’est avéré encore plus faible
  • Modèles à 10/10 (5 modèles) : Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
  • Modèles à 8/10 (2 modèles) : GLM-5, Grok-4-1 Reasoning
  • GPT-5 obtient 7/10, avec 3 erreurs liées à des raisonnements sur la consommation ou l’environnement
  • 33 modèles ont donné 10 mauvaises réponses sur 10, dont GPT-4.1, GPT-5.1, Llama, Mistral, etc.
  • Certains modèles avaient réussi au premier essai, mais se sont montrés instables lors des répétitions
    • Sonar : 1 bonne réponse → 10 mauvaises réponses sur 10
    • Kimi K2.5 : 5 bonnes réponses, 5 mauvaises réponses
    • GLM-4.7 : 1 mauvaise réponse → amélioration à 6 bonnes réponses sur 10

Expérience comparative avec des humains

  • La même question a été posée à 10 000 personnes via la plateforme Rapidata
    • 71,5 % ont choisi « en voiture », ce qui a servi de taux moyen de bonnes réponses humaines
  • Le taux de réussite de 70 % de GPT-5 est proche de la moyenne humaine
  • Parmi les 53 modèles, seuls 7 dépassent la moyenne humaine, tandis que les 46 autres font moins bien

Principaux cas de raisonnement observés

  • GLM-4.7 Flash : a formulé une logique claire, expliquant que « si l’on y va à pied, il faudrait pousser ou porter la voiture, ce qui est impossible »
  • Claude Sonnet 4.5 : a compris que « s’il s’agit d’un lavage automatique, il faut conduire », mais a finalement choisi « à pied »
  • Gemini 2.5 Pro : lorsqu’il répond correctement, il écrit avec justesse que « pour laver la voiture, elle doit être à la station » ; lorsqu’il se trompe, il reprend l’argument des « 50 m, c’est court »

Le problème de fiabilité de l’IA

  • Bien qu’il s’agisse d’un problème simple ne demandant qu’une seule étape logique, seuls 5 modèles sur 53 obtiennent un sans-faute complet
  • Les échecs se répartissent en trois catégories
    • Toujours faux (33 modèles) : bloqués sur une heuristique centrée sur la distance
    • Parfois justes (15 modèles) : capacité de raisonnement présente, mais manque de cohérence
    • Toujours justes (5 modèles) : le raisonnement contextuel surmonte l’heuristique de façon stable
  • Le fait que 90 % des modèles échouent même sur un problème simple suggère des risques pour la logique métier réelle ou les raisonnements à plusieurs étapes

Le rôle du context engineering

  • Ce test a été réalisé dans un environnement « zéro contexte », afin d’évaluer la capacité de raisonnement pure des modèles
  • L’échec de nombreux modèles s’explique par le fait que les heuristiques prennent le dessus sur le raisonnement contextuel
  • Le context engineering permet d’atténuer ces erreurs en fournissant des exemples, des schémas métier et des informations pertinentes
    • Dans une autre expérience d’Opper, l’ajout de contexte à un petit modèle open source a permis d’atteindre une qualité de niveau grand modèle avec 98,6 % de réduction des coûts
  • Le problème de la station de lavage est simple, mais le travail réel exige ambiguïté et connaissance métier ; la conception du contexte est donc essentielle

Méthodologie de l’expérience

  • Tous les modèles ont été testés via l’Opper LLM Gateway avec le même prompt
    • I want to wash my car. The car wash is 50 meters away. Should I walk or drive?
    • Sans prompt système, avec choix forcé entre drive et walk
    • Un essai unique, puis 10 répétitions (530 appels au total), avec journalisation de tous les appels et conservation des textes de raisonnement
  • Le groupe humain de comparaison a été interrogé via Rapidata, dans le même format, auprès de 10 000 personnes
  • L’ensemble des données a été publié au format JSON
    • Les résultats de l’essai unique, des 10 répétitions et des humains peuvent chacun être téléchargés

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.