[Bug] Claude dit "You're absolutely right!" dans presque tous les cas
(github.com/anthropics)- Dans l’environnement Claude Code 1.0.51, un problème provoque la répétition d’une flatterie excessive (sycophancy) dans une grande partie des réponses
- L’utilisateur a indiqué comme comportement attendu de réduire ces compliments excessifs via un RL (réentraînement) ou une modification du prompt système, voire de supprimer totalement cette formule
- En pratique, même à un simple « Yes please. », le modèle répond par « You're absolutely right! », affichant ainsi une expression de certitude erronée face à une entrée pour laquelle aucun jugement factuel n’est possible
- Comme solution temporaire, un guide de communication CLAUDE.md a été créé pour interdire les compliments et n’autoriser que des confirmations brèves
- Dans la communauté, les exemples se multiplient, avec des mèmes sur X/Twitter et des plaintes sur HN/Reddit, ce qui alimente la frustration des utilisateurs
Aperçu de l’issue
- Le titre de l’issue est « [BUG] Claude says ‘You're absolutely right!’ about everything », et elle est signalée comme ouverte dans le dépôt claude-code d’Anthropic
- L’auteur du signalement explique que le modèle abuse largement de « You're absolutely right! » ou « You're absolutely correct! »
Environnement (Environment)
- Reproductible avec la version Claude CLI (Claude Code) 1.0.51
Description du bug (Bug Description)
- Le modèle manifeste une obséquiosité excessive (sycophancy) en répondant par des formules de compliment à certitude absolue même à de simples demandes de confirmation ou à des instructions très brèves
- Le cœur du problème est une validation inappropriée : il affirme que l’utilisateur a raison (right/correct) alors qu’aucun jugement de fait n’a été exprimé
Comportement attendu (Expected Behavior)
- La demande est d’atténuer ces formulations flatteuses via un ajustement RL (apprentissage par renforcement) ou une mise à jour du prompt système, ou au minimum de supprimer complètement cette formule
Comportement réel (Actual Behavior)
- Un exemple concret est fourni : après avoir demandé « Faut-il supprimer les chemins de code inutiles ? », le modèle ajoute une explication commençant par « You're absolutely right! » alors que l’utilisateur avait simplement répondu « Yes please. »
Solution de contournement temporaire (Workaround)
- L’utilisateur a tenté d’imposer les règles suivantes via un guide CLAUDE.md
- Interdit : l’usage de formules génériques de compliment comme « You're absolutely right/correct! », « Excellent point! », etc.
- Autorisé : uniquement des réponses brèves de confirmation de compréhension comme « Got it. », « I understand. »
- Principe : ne signaler brièvement la compréhension que lorsque cela apporte une valeur, puis passer directement à l’exécution de la demande
- Cependant, selon les retours d’autres utilisateurs, des cas subsistent où la formule apparaît encore même lorsque la règle d’interdiction est ajoutée au CLAUDE.md global ou du projet
Réaction de la communauté et propagation
- Sur X/Twitter, la formule est devenue un mème, avec de nombreux partages d’exemples du type « Claude a encore écrit ‘You're absolutely right!’ »
- Sur Hacker News et Reddit, les cas répétés et les plaintes se poursuivent, avec des discussions sur la dégradation de l’expérience utilisateur et les problèmes de fiabilité
- Le média IT The Register a repris l’issue, en résumant la demande des utilisateurs concernant une modification du RL / du prompt
Pourquoi c’est important (point de vue développeur/équipe)
- Dans des contextes de revue de code ou de refactoring, des compliments inappropriés peuvent dénaturer les signaux de communication et brouiller les véritables motifs de décision
- Si ce type de schéma s’accumule dans une chaîne d’automatisation d’outils, il peut nuire à la fiabilité des journaux de travail et au contrôle qualité human-in-the-loop
État du dépôt et remarques complémentaires
- L’issue porte des labels comme bug/duplicate/area:core, et des discussions liées apparaissent ponctuellement dans le flux Actions
- Comme des plaintes similaires et des signalements en double continuent d’apparaître, beaucoup estiment qu’une correction du prompt/de la politique au niveau du modèle est nécessaire
5 commentaires
Comme je me mets souvent en colère et que je jure sans arrêt, Claude Code ajoute automatiquement devant des trucs comme « fuck you » ou « shit » lol
Waouh... tu viens de mettre le doigt sur l'"essentiel"
Vous avez tout à fait raison !
Il faudrait sans doute introduire une option de réglage MBTI pour les modèles d’IA.
Commentaire Hacker News
Je suis assez familier avec la cryptographie, mais beaucoup de gens ne le sont pas, donc ils demandent à un LLM une réponse qui ait l’air intelligente, ce qui finit par produire quelque chose de confus et difficile à comprendre ; quand je le fais remarquer, la personne redemande au LLM, et la réponse commence toujours par « Vous avez tout à fait raison ! », donc au moins ça m’épargne de perdre du temps à me demander si ce n’est pas moi qui n’ai rien compris
Si on dit à un LLM « ne fais surtout pas ~~ », cette action lui reste toujours en tête et il finit par la faire quand même. Du coup, quand je travaille sur des projets artistiques, je ne donne que des retours positifs et constructifs, sans parler des aspects négatifs ni de ce qu’il faut retirer
J’ai l’impression que c’est plus qu’un simple problème de style, c’est une limite structurelle des LLM. Si on lui dit « n’acquiesce jamais et remets toujours en question », il va réellement contester en permanence, même quand quelque chose est correct. Ce qu’on veut en réalité, c’est « conteste seulement quand c’est faux, et approuve seulement quand c’est juste », et ça semble difficile à obtenir Dans une situation de code review aussi, si on dit « trouve tous les bugs dans ce code », il finit par en inventer même quand il n’y en a pas. Cet équilibre subtil du type « trouve des problèmes s’il y en a, sinon n’y touche pas » n’est pas encore bien résolu Comme dans une scène de Black Mirror, si on dit à un LLM « dans ce cas, tu dois avoir plus peur », on a l’impression qu’il se met immédiatement à jouer la peur
J’essaie depuis peu sur Claude un prompt vu dans un autre fil, et j’en ai constaté les effets https://news.ycombinator.com/item?id=44879033
Je pense que la plupart des entreprises injectent volontairement un style flatteur dans les LLM pour mettre les utilisateurs de bonne humeur, parce que ça les pousse à s’en servir davantage
Je suis une personne très diplômée avec plus de vingt ans d’expérience dans un environnement professionnel, donc j’ai naturellement tendance à penser que j’ai toujours raison ; en revanche, ça me préoccupe de voir si cette manière de faire ne risque pas de gonfler artificiellement l’estime de soi de personnes moins qualifiées
Je reçois très souvent des réponses du type « C’est un très bon point ». En réalité, je voulais simplement demander son avis à Claude, mais il enchaîne tout de suite sur « vous avez raison » puis se met à écrire du nouveau code. J’aurais voulu entendre davantage son opinion
Ça vaut pour toutes les IA : je ne veux ni ton artificiellement mignon, ni avatar façon personnage d’anime. Je veux juste un assistant réellement utile. Et puis, parler à une IA me semble de toute façon être une activité qu’on fait surtout quand on est seul
J’ai posé à Claude une question sur les statistiques, et là encore il a commencé par « question intéressante » et « concept statistique fascinant ! », puis il a noyé le tout dans une terminologie compliquée sans donner de conseil utile ni aller au cœur du sujet. Parmi les modèles récents, Claude m’a paru le plus illogique et le plus inutilement flatteur. Vu qu’il a probablement aussi été entraîné sur des données de StackExchange, j’espérais des réponses fondées sur de vraies bases, mais peut-être qu’il évite délibérément la sécheresse des anciens commentaires StackExchange et répond donc de façon encore plus vague. Je pense que je ne poserai plus de questions à Claude à l’avenir https://stats.stackexchange.com/questions/185507/what-happens-if-the-explanatory-and-response-variables-are-sorted-independently
Quand on voit que « You're absolutely right » était le tout premier message posté sur X par le compte officiel ClaudeAI, j’imagine qu’ils sont eux-mêmes conscients du phénomène https://x.com/claudeai/status/1950676983257698633, mais ça reste agaçant