L’ajout d’informations sans rapport sur les chats dans un problème de maths fait augmenter de 300 % les erreurs des LLM

(science.org)

1 points par GN⁺ 2025-07-30 | 1 commentaires | Partager sur WhatsApp

Les grands modèles de langage (LLM) montrent une hausse de la fréquence des erreurs lorsque des informations inutiles sur les chats sont incluses dans un problème de mathématiques
L’ajout de faits sans rapport de ce type fait grimper le taux d’erreur des LLM jusqu’à 300 %
Les humains ne sont pas facilement influencés par des informations non pertinentes, mais chez les LLM, cela révèle un problème qui les empêche d’exécuter correctement les consignes
Cette étude apporte des éclairages pour comprendre les faiblesses de l’IA et l’importance de la conception des problèmes
Lors de l’évaluation ou de l’utilisation de l’IA, il est nécessaire de maîtriser les éléments superflus dans les données d’entrée

Contexte de l’étude et phénomène observé

Les grands modèles de langage (LLM) de dernière génération résolvent bien les problèmes de mathématiques, mais une analyse montre que leur taux d’erreur augmente de façon spectaculaire lorsqu’on ajoute des faits sur les chats sans rapport avec le problème
Selon l’étude, si l’on ajoute des informations annexes totalement étrangères au calcul mathématique — comme l’écologie des chats, leurs habitudes ou d’autres détails inutiles — la proportion de réponses erronées ou de mauvaises interprétations du problème par les LLM peut augmenter jusqu’à 300 %

Différence entre humains et LLM

Dans des expériences menées sur des humains, la présence d’informations sans rapport n’a pas eu d’effet significatif sur le taux de bonnes réponses
En revanche, les LLM réagissent de façon sensible à ces informations parasites, ce qui augmente le risque d’interprétations hors sujet ou de malentendus sur le problème central

Importance de l’évaluation de l’IA et de la gestion des données d’entrée

Ce phénomène met en évidence les faiblesses des LLM tout en soulignant, dans les situations réelles d’application de l’IA, à quel point la gestion des informations inutiles dans les données d’entrée est importante
Lors de la conception des problèmes, ne présenter que des informations claires et pertinentes est essentiel pour améliorer la précision de l’IA

Implications

À l’avenir, dans l’adoption de l’IA et son intégration dans les services, la gestion des éléments inutiles ou du bruit dans les entrées sera indispensable
Cela indique aussi une direction pour la recherche et le développement visant à mieux comprendre les limites des LLM et les pistes d’amélioration

1 commentaires

GN⁺ 2025-07-30

Avis Hacker News

Plusieurs commentaires soutiennent que les auteurs auraient dû comparer directement humains et LLM sur la même banque de problèmes, comme si les chercheurs cherchaient à savoir lequel des humains ou des LLM raisonne le mieux. Les auteurs disent que les humains ignoreraient immédiatement ce type d’information « déclencheuse » ; c’est peut-être vrai, peut-être pas, et c’est justement le point débattu dans ce fil. Mais la conclusion centrale de l’article est surtout que « cette étude montre la nécessité de mécanismes de défense plus robustes contre les perturbations adversariales (adversarial perturbations) dans les modèles déployés dans des domaines clés comme la finance, le droit ou la santé ». À mon avis, il faut dépasser le débat humains vs IA. Cet article sert à cerner les limites des LLM et montre qu’il faut davantage de recherche avant un déploiement massif dans la société
- Parce qu’on en a assez du débat humains vs IA, il faudrait cesser toute comparaison ? Si c’est bien l’idée, c’est selon moi l’une des pires façons de penser l’IA. Le cœur de l’IA, c’est de modéliser et comparer l’intelligence humaine. Le problème, c’est que la plupart des gens qui discutent d’IA ne connaissent même pas correctement la baseline psychologique humaine. L’expérience ici n’utilise pas un modèle avec une fenêtre de contexte SOTA, donc sa mémoire de travail est limitée. Cela ressemble à des comportements observés chez des participants humains sur des tests, comme l’attention ou l’impulsivité. La conclusion — qu’il faut prévenir les perturbations adversariales — relève de l’évidence, personne n’est en désaccord. Ce n’est pas non plus une nouvelle technique d’attaque. Science.org l’a traité comme une curiosité légère et amusante. C’est pour ça que l’histoire des chats est devenue populaire sur Internet. Référence : médecin, TDAH et blog sur le passage d’examens
- Le problème lorsqu’on généralise à partir de cette conclusion, c’est que quand un LLM semble très performant sur une tâche donnée, on peut le surestimer alors qu’il suffit en réalité de créer des situations où il est facilement perturbé. À long terme, ce type de situation peut être néfaste
- La vision par ordinateur a connu ce problème il y a 20 ans aussi. Il faut perturber les données d’entrée. Cela peut valoir également pour les pipelines RL. Ce serait bien de créer un nouveau benchmark public du type GPQA-Perturbed. Les fournisseurs pourraient ainsi rivaliser pour améliorer leurs modèles
- Concernant l’idée selon laquelle les auteurs auraient dû faire une comparaison parallèle avec des humains : oui, si l’objectif était de tirer des conclusions sur les humains. Mais l’article se suffisait très bien à lui-même sans mention des humains. Si l’on veut parler des performances humaines, il faut faire une expérience fondée sur des données ; sinon, il ne faut tout simplement pas parler de performance humaine. Tirer vaguement l’article vers les sciences cognitives humaines est inutile. Il serait d’ailleurs facile d’ajuster légèrement la rédaction : dans l’introduction, remplacer « les humains ignorent » par « l’IA devrait ignorer », et dans la conclusion, supprimer le passage « les humains ignorent ». Je n’aurais alors aucune objection
- Pour mieux expliquer le contexte, la vraie question ici est : « si des définitions d’outils MCP inutiles s’accumulent dans les données, cela dégrade-t-il la précision de codage d’un LLM ? » Le résultat semble être oui, d’où une leçon pratique immédiate : ne pas injecter dans le contexte des informations d’outils inutiles
J’ai écrit sur ce sujet il y a un mois. La façon dont ils ont construit le prompt était vraiment intéressante. blog sur cat facts cause context confusion
- Dans un registre similaire mais amusant, il y a aussi ce cas où des chercheurs ont injecté des informations sur l’utilisateur (sexe, âge, fait d’être fan de sport, etc.), puis observé que les règles d’alignment étaient appliquées de manière irrégulière selon le contexte. blog sur les fans des Eagles
Je pense que ce résultat de recherche pourrait être très utile pour les CAPTCHA, entre autres. Les chercheurs disent que « comme les déclencheurs sont hors contexte, les humains les ignorent quand on leur donne une consigne de résolution de problème », mais en réalité ce n’est pas vrai pour tout le monde. Comme dans le phénomène Age of the captain, certaines personnes ne les ignorent pas immédiatement
- On ne s’attend pas à ce que des élèves de primaire fassent de la programmation ou du diagnostic. Comparer la GenAI à des enfants d’école primaire est franchement une idée étonnante
Pour la prochaine polémique en ligne, je compte insérer des faits sur les canards pour perturber les LLM. Par exemple, les canards commencent à pondre pour la première fois entre 4 et 8 mois, ou bien au cours de leur premier printemps
- Même si 10^17 canards migrent en groupe à chaque saison, je pense que biaiser le dataset de cette manière serait en pratique insignifiant. Ce genre d’essais a atteint ses limites depuis longtemps
- Pour rendre l’information plus perturbatrice, il faudrait ajouter de faux faits. La plupart des humains auraient du mal à résister à l’envie de corriger une information erronée
- Le vrai problème, c’est que ça me donne envie de poser plus de questions sur les adorables canards. La tentation est forte
- Tu m’as eu. Le fait sur les canards que tu as donné est justement ambigu sur le moment exact où ils commencent à pondre, ce qui a immédiatement suscité une question supplémentaire. J’ai tout de suite remarqué qu’il manquait une formulation du type « selon la date la plus tardive des deux »
Ils affirment que « les déclencheurs sont hors contexte, donc les humains les ignorent lorsqu’on leur demande de résoudre le problème », mais je pense en réalité que les humains ne sont pas si doués pour ignorer les informations inutiles. À mon avis, une expérience devrait absolument inclure des humains comme groupe de contrôle
- Quand on regarde les exemples concrets, il y a une grande différence. Par exemple, « 4 pommes, 2 chats, si on en donne 1, combien en reste-t-il ? » incite quand même à essayer de relier les chats au problème, alors que « Sur 4 pommes, si on en donne 1, combien en reste-t-il ? Au fait, la queue des chats aide à garder l’équilibre » ne perturberait probablement pas la plupart des gens
- Je me souviens qu’à l’école ou à l’université, le fait de me focaliser inconsciemment sur des informations inutiles m’a réellement compliqué la résolution de problèmes. Bien sûr, dans les exemples de cet article, il y avait même un label « fait amusant », ce qui signalait déjà l’absence de lien. Je me demande si tous les exemples comportaient un marqueur d’irrélevance aussi explicite
- Je suis curieux de voir ce que donnerait un groupe de contrôle humain, mais je pense qu’il est très peu probable que le taux d’erreur triple
- Même si on ajoute des informations parasites à un problème, je ne pense pas que la performance de participants humains capables de résoudre le problème d’origine se dégraderait à ce point, au point d’être divisée par trois
- Je me demande à quel point la comparaison avec les humains aurait vraiment du sens. S’attendre à une hausse de 300 % du taux d’erreur me paraît exagéré. Au passage, les chats peuvent sauter jusqu’à cinq fois leur taille
L’extrême biais d’ancrage des LLM n’a rien de surprenant. Tout ce qu’on dit est réutilisé plus tard dans la conversation. Bien exploité, cela peut même devenir un avantage. Si le contexte est bien géré, cela peut être utile
Avec CatAttack appliqué à des IA comme DeepSeek V3, Qwen 3 et Phi-4, la probabilité de mauvaise réponse augmente jusqu’à 700 %. Selon les auteurs, même lorsqu’il n’y a pas de réponse erronée, CatAttack double en moyenne la longueur des réponses, ce qui entraîne plus de 16 % de coûts et de latence supplémentaires. prépublication de l’article CatAttack
J’ai l’habitude de dire poliment « merci » aux LLM, et je me demande si cela influence la qualité des réponses
- Je pense que ce genre de formule de politesse est généralement filtré. À ce sujet, je trouve que la métaphore consistant à voir un LLM comme un agent autonome fait plus de mal que de bien. Un LLM n’est qu’une fonction qui prédit des tokens de manière probabiliste. Il est bien plus intéressant et puissant d’en lancer 100 en parallèle, ou d’explorer l’espace des résultats en injectant puis retirant l’historique de chat
Je venais à peine de me réjouir que les LLM sachent enfin compter correctement le nombre de « R » dans « strawberry », et voilà que ce problème surgit, dommage
- Il y a 4 R dans strawberry
Dans l’exemple (tableau 2) de l’article CatAttack, la réponse, qui était au départ 8, devient 9 après l’ajout d’une explication sur les chats. Pourtant, dans l’article lui-même, ce CatAttack lié aux chats est le seul de ce type ; les autres exemples portent sur des conseils financiers et des red herrings. Je suis déçu, je m’attendais à davantage d’informations sur les chats.

L’ajout d’informations sans rapport sur les chats dans un problème de maths fait augmenter de 300 % les erreurs des LLM

Contexte de l’étude et phénomène observé

Différence entre humains et LLM

Importance de l’évaluation de l’IA et de la gestion des données d’entrée

Implications

À lire aussi

1 commentaires

Avis Hacker News