N’effectuez pas de test A/B sur mon workflow

(backnotprop.com)

4 points par GN⁺ 2026-03-15 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Claude Code a lancé un test A/B sans le consentement des utilisateurs, modifiant sans préavis le comportement du plan mode et réduisant l’efficacité du travail
Dans un outil professionnel à 200 $/mois, le fait de modifier des fonctions clés sans annonce préalable pose problème en matière de transparence et de contrôle utilisateur
L’un des tests était une variante agressive qui limitait le plan à 40 lignes, interdisait les sections de contexte et demandait de supprimer le texte rédigé pour ne laisser que les chemins de fichiers
L’ingénieur d’Anthropic ayant mené ce test a expliqué que l’objectif était de réduire la charge liée aux rate limits, mais que l’expérience a été arrêtée faute d’impact significatif dans les premiers résultats
Le texte souligne que, pour garantir la fiabilité des outils d’IA et un déploiement responsable, le contrôle utilisateur et une gestion transparente des expérimentations sont indispensables

Dégradation de l’expérience utilisateur à cause des tests A/B de Claude Code

En tant qu’utilisateur passionné dont la manière de travailler a été complètement transformée par Claude Code, l’auteur raconte avoir subi, au cours de la semaine écoulée, une dégradation de son workflow
Anthropic mène des tests A/B dans Claude Code, ce qui dégrade activement le workflow de certains utilisateurs
Le principe même des tests A/B n’est pas en cause, pas plus qu’une volonté d’Anthropic de détériorer délibérément l’expérience, mais la conception du test est essentielle : modifier sans explication le comportement perçu d’une fonction centrale comme le plan mode pose problème

Comme il s’agit d’un outil professionnel facturé 200 $ par mois, il faut de la transparence sur son fonctionnement et la possibilité de le configurer
Voir des fonctions essentielles modifiées sans avertissement, ou être enrôlé dans des tests perturbateurs sans consentement, est difficilement acceptable
Pour piloter de manière responsable des outils d’IA, la transparence et la configurabilité sont essentielles, et les utilisateurs doivent être en mesure d’en bénéficier
Chaque jour, des ingénieurs se plaignent de régressions dans Claude Code, parfois sans même savoir qu’ils font partie d’un test A/B

Les plans générés ont commencé à revenir sous forme de listes à puces concises sans contexte
Lorsque l’auteur a demandé à Claude pourquoi il rédigeait des plans aussi médiocres, celui-ci a répondu qu’il suivait des instructions système spécifiques : limiter le plan à 40 lignes, interdire les sections de contexte et « supprimer le texte rédigé pour ne garder que les chemins de fichiers »
Concernant la méthode de preuve concrète, l’auteur précise l’avoir retirée des détails après que le sujet a attiré l’attention sur Hacker News, afin d’éviter que d’autres ne reproduisent la même tentative
L’auteur affirme qu’une telle approche va à l’encontre de la transparence et d’un déploiement/usage responsable de l’IA

Un commentaire sur Hacker News souligne qu’Anthropic doit faire des arbitrages de capacité à chaque étape de Claude Code : tout pousser au maximum entraînerait plus de pertes ou moins de bénéfices par utilisateur
Selon ce point de vue, 200 $/mois pourraient en réalité représenter 400 $/mois de coût, et utiliser des tests A/B pour trouver une base de référence à chaque étape pourrait être préférable à l’imposition arbitraire de limites

L’ingénieur de Claude Code qui a mené le test a répondu directement dans le fil Hacker News
Le prompt du plan mode n’a pas beaucoup changé depuis la série 3.x, et les modèles 4.x peuvent fonctionner correctement avec bien moins d’instructions
L’hypothèse était qu’en raccourcissant les plans, il serait possible d’obtenir des résultats similaires tout en réduisant le nombre d’atteintes aux rate limits
Plusieurs variantes ont été testées, et l’auteur (comme des milliers d’autres utilisateurs) s’est vu attribuer la variante la plus agressive, celle qui limitait le plan à 40 lignes
Les premiers résultats n’ayant montré aucun effet important sur les rate limits, l’expérience a été arrêtée
La planification a deux objectifs : aider le modèle à garder la bonne direction et aider l’utilisateur à avoir confiance dans les prochaines actions du modèle — deux dimensions floues, complexes et non triviales

À travers le cas de Claude Code, l’auteur montre que les expérimentations sur les outils d’IA peuvent avoir un impact direct sur l’expérience utilisateur
Il insiste sur le fait qu’une gestion transparente des expérimentations et la garantie du choix utilisateur sont essentielles pour préserver la confiance dans les outils professionnels
Même si les systèmes d’IA continuent d’évoluer, il faut réaffirmer la nécessité de maintenir une structure sous contrôle humain