- Claude Code a lancé un test A/B sans le consentement des utilisateurs, modifiant sans préavis le comportement du plan mode et réduisant l’efficacité du travail
- Dans un outil professionnel à 200 $/mois, le fait de modifier des fonctions clés sans annonce préalable pose problème en matière de transparence et de contrôle utilisateur
- L’un des tests était une variante agressive qui limitait le plan à 40 lignes, interdisait les sections de contexte et demandait de supprimer le texte rédigé pour ne laisser que les chemins de fichiers
- L’ingénieur d’Anthropic ayant mené ce test a expliqué que l’objectif était de réduire la charge liée aux rate limits, mais que l’expérience a été arrêtée faute d’impact significatif dans les premiers résultats
- Le texte souligne que, pour garantir la fiabilité des outils d’IA et un déploiement responsable, le contrôle utilisateur et une gestion transparente des expérimentations sont indispensables
Dégradation de l’expérience utilisateur à cause des tests A/B de Claude Code
- En tant qu’utilisateur passionné dont la manière de travailler a été complètement transformée par Claude Code, l’auteur raconte avoir subi, au cours de la semaine écoulée, une dégradation de son workflow
- Anthropic mène des tests A/B dans Claude Code, ce qui dégrade activement le workflow de certains utilisateurs
- Le principe même des tests A/B n’est pas en cause, pas plus qu’une volonté d’Anthropic de détériorer délibérément l’expérience, mais la conception du test est essentielle : modifier sans explication le comportement perçu d’une fonction centrale comme le plan mode pose problème
Exigence de transparence pour un outil payant
- Comme il s’agit d’un outil professionnel facturé 200 $ par mois, il faut de la transparence sur son fonctionnement et la possibilité de le configurer
- Voir des fonctions essentielles modifiées sans avertissement, ou être enrôlé dans des tests perturbateurs sans consentement, est difficilement acceptable
- Pour piloter de manière responsable des outils d’IA, la transparence et la configurabilité sont essentielles, et les utilisateurs doivent être en mesure d’en bénéficier
- Chaque jour, des ingénieurs se plaignent de régressions dans Claude Code, parfois sans même savoir qu’ils font partie d’un test A/B
Contenu du test et éléments de preuve
- Les plans générés ont commencé à revenir sous forme de listes à puces concises sans contexte
- Lorsque l’auteur a demandé à Claude pourquoi il rédigeait des plans aussi médiocres, celui-ci a répondu qu’il suivait des instructions système spécifiques : limiter le plan à 40 lignes, interdire les sections de contexte et « supprimer le texte rédigé pour ne garder que les chemins de fichiers »
- Concernant la méthode de preuve concrète, l’auteur précise l’avoir retirée des détails après que le sujet a attiré l’attention sur Hacker News, afin d’éviter que d’autres ne reproduisent la même tentative
- L’auteur affirme qu’une telle approche va à l’encontre de la transparence et d’un déploiement/usage responsable de l’IA
Réactions sur Hacker News et angle du coût
- Un commentaire sur Hacker News souligne qu’Anthropic doit faire des arbitrages de capacité à chaque étape de Claude Code : tout pousser au maximum entraînerait plus de pertes ou moins de bénéfices par utilisateur
- Selon ce point de vue, 200 $/mois pourraient en réalité représenter 400 $/mois de coût, et utiliser des tests A/B pour trouver une base de référence à chaque étape pourrait être préférable à l’imposition arbitraire de limites
Réponse de l’ingénieur d’Anthropic
- L’ingénieur de Claude Code qui a mené le test a répondu directement dans le fil Hacker News
- Le prompt du plan mode n’a pas beaucoup changé depuis la série 3.x, et les modèles 4.x peuvent fonctionner correctement avec bien moins d’instructions
- L’hypothèse était qu’en raccourcissant les plans, il serait possible d’obtenir des résultats similaires tout en réduisant le nombre d’atteintes aux rate limits
- Plusieurs variantes ont été testées, et l’auteur (comme des milliers d’autres utilisateurs) s’est vu attribuer la variante la plus agressive, celle qui limitait le plan à 40 lignes
- Les premiers résultats n’ayant montré aucun effet important sur les rate limits, l’expérience a été arrêtée
- La planification a deux objectifs : aider le modèle à garder la bonne direction et aider l’utilisateur à avoir confiance dans les prochaines actions du modèle — deux dimensions floues, complexes et non triviales
Conclusion : responsabilité des expérimentations sur les outils d’IA et confiance des utilisateurs
- À travers le cas de Claude Code, l’auteur montre que les expérimentations sur les outils d’IA peuvent avoir un impact direct sur l’expérience utilisateur
- Il insiste sur le fait qu’une gestion transparente des expérimentations et la garantie du choix utilisateur sont essentielles pour préserver la confiance dans les outils professionnels
- Même si les systèmes d’IA continuent d’évoluer, il faut réaffirmer la nécessité de maintenir une structure sous contrôle humain
Aucun commentaire pour le moment.