Pourquoi j’ai résilié Claude : problèmes de tokens, baisse de qualité et support défaillant

(nickyreinert.de)

9 points par GN⁺ 5 일 전 | 10 commentaires | Partager sur WhatsApp

Pendant les premières semaines, la vitesse, une allocation de tokens jugée équitable et la bonne qualité des résultats donnaient une expérience très satisfaisante, mais cette impression a fortement changé il y a environ trois semaines
Après 10 heures de pause, seulement deux courtes questions envoyées à Claude Haiku ont fait grimper l’usage à 100 %, et le canal de support s’est pratiquement refermé après des réponses automatisées qui ne traitaient pas le cœur du problème
Récemment, alors qu’il était auparavant possible de faire tourner plusieurs projets en parallèle, même un seul projet suffit désormais à épuiser la limite de tokens en deux heures, et lors d’un refactoring, près de la moitié d’une fenêtre de 5 heures a été gaspillée à corriger un contournement bon marché
Au bout d’un certain temps, le cache de conversation disparaissait, ce qui obligeait à repayer le coût de relecture de la base de code, tandis qu’un changement du point de référence hebdomadaire et une alerte de limite mensuelle sans explication rendaient le système de quotas incohérent
Malgré une forte reconnaissance du gain de productivité et du potentiel du produit, l’accumulation d’un support défaillant, d’une baisse de qualité et de limites d’usage confuses a finalement conduit à résilier le compte Anthropic

Satisfaction initiale puis changement

Au cours des premières semaines d’abonnement à Claude Code, le service était rapide, l’allocation de tokens paraissait équitable et la qualité des résultats était bonne
- Il avait également été possible de consulter une annonce indiquant une augmentation de l’allocation de tokens hors heures de pointe
- Le soutien au produit s’était même renforcé avec sa posture opposée à certaines règles gouvernementales
Depuis environ trois semaines, cette satisfaction initiale a commencé à disparaître rapidement
- Les sections suivantes enchaînent sur des problèmes de support, de qualité et de limitations d’usage

Problèmes de qualité du support

Après une pause d’environ 10 heures, en pensant que les tokens avaient été rechargés, le travail a repris le matin, mais juste après l’envoi de deux courtes questions à Claude Haiku, sans rapport avec le dépôt, l’usage des tokens est monté à 100 %
- Les questions étaient simples et de petite ampleur
- Le rafraîchissement de tokens attendu ne correspondait pas à la hausse réelle de la consommation
Une demande a été envoyée au bot de support IA, mais il n’a renvoyé que des indications basiques sans bien comprendre le problème réel
- Une escalade vers un support humain a ensuite été demandée
- Quelques jours plus tard, la réponse reçue paraissait elle aussi à côté du problème réel
La réponse commençait par une formule indiquant que « le système a détecté une demande concernant les limites d’usage des offres Pro ou Max », alors que l’utilisation se faisait déjà sur le plan Pro et que le cœur de la demande n’était toujours pas traité
- Le corps du message enchaînait ensuite avec de longues explications documentaires sur les limites quotidiennes et hebdomadaires
- Rien n’indiquait une volonté de résoudre ou même d’aborder directement le problème signalé
La fin du mail précisait que d’éventuelles réponses supplémentaires pourraient ne pas être surveillées et invitait simplement à consulter la page d’aide, ce qui fermait de fait le canal de support
- Après une réponse automatisée qui ne reflétait pas le problème réel, la voie de recours elle-même semblait bloquée
- La déception à l’égard du support a alors fortement grandi

Baisse de qualité

Dans les jours et semaines qui ont suivi, la qualité des résultats s’est révélée moins satisfaisante que lors de l’expérience initiale, tandis que le temps de travail disponible diminuait fortement
- Autrefois, il était possible d’avancer sur jusqu’à trois projets à la fois, mais désormais, même un seul projet suffit à épuiser la limite de tokens en deux heures
- Le volume réellement disponible et la productivité perçue se sont dégradés ensemble
Il est également précisé que l’évaluation de la qualité peut être subjective et que la performance d’un agent dépend beaucoup de son utilisateur
- L’auteur indique en même temps utiliser aussi GitHub Copilot, OpenAI Codex, OMLX, Continue et Qwen3.5-9B, ce qui montre une expérience comparative avec plusieurs outils
- Sans revendiquer d’expertise absolue, la baisse évoquée se lit comme le constat de quelqu’un ayant réellement testé divers outils
Dans un cas où un refactoring de projet a été confié à Claude Opus, le journal de raisonnement du modèle montrait une intention d’ajouter un initialiseur générique dans ui-events.js pour injecter automatiquement l’affichage des valeurs, plutôt que de modifier directement tous les sliders dans le JSX
- Cette approche consistait à contourner le problème en insérant automatiquement un affichage de valeur lorsqu’un range input n’en possédait pas
- Ce type de logs donne de plus en plus l’impression qu’il faut les inspecter souvent, et non plus occasionnellement
Cette méthode a été jugée non pas comme une bonne pratique, mais comme un contournement bon marché ; une fois le problème signalé, Opus a lui-même reconnu qu’il s’agissait d’une approche paresseuse et est revenu à une solution consistant à ajouter directement les labels dans le JSX et à les relier explicitement
- Le simple fait de corriger cette mauvaise direction initiale a consommé environ 50 % d’une fenêtre de 5 heures d’allocation de tokens
- La baisse de qualité ne relevait donc plus d’une simple impression, mais d’un gaspillage réel de coûts

Confusion autour du cache et de l’affichage des limites

Un problème de cache de conversation est aussi apparu, avec des liens vers le postmortem d’Anthropic et une discussion sur Hacker News
- Le fait que le sujet soit traité publiquement est perçu positivement
- Mais la charge côté expérience utilisateur reste entière
Lorsqu’un certain temps s’écoule avant de reprendre le travail, le cache de conversation disparaît et le modèle recommence à relire la base de code depuis le début
- Cela peut être rationnel du point de vue du coût, mais côté utilisateur, cela signifie avoir déjà payé une première fois le chargement initial en tokens, puis devoir repayer ce même coût après une pause forcée
- C’est particulièrement pénalisant lorsqu’on revient après une pause imposée par la limite d’une fenêtre de 5 heures de tokens
Il est aussi arrivé que la fenêtre hebdomadaire passe soudainement d’un calcul basé sur le jour courant à une référence au lundi, avec au passage une remise à zéro de l’usage
- La remise à zéro a été bienvenue, mais la raison de ce changement est restée inconnue
- Cela a renforcé l’impression d’un système de limites peu cohérent
En surveillant en permanence l’usage des tokens pendant le travail sur un projet, une alerte invitant à se préoccuper d’une limite d’usage mensuelle est soudain apparue, alors même qu’il ne s’agissait pas d’un utilisateur d’organisation
- À ce moment-là, ni les limites horaires ni les limites hebdomadaires n’avaient pourtant été atteintes
- L’interface n’expliquait pas non plus l’origine de cette alerte
Cette alerte a disparu environ deux heures plus tard, permettant de reprendre le travail
- La documentation ne mentionne pas de limite d’usage mensuelle
- La page des paramètres indique aussi que seules la session en cours et la limite hebdomadaire sont affichées, si bien que la nature de cette limite mensuelle reste finalement inexpliquée

Effet sur la productivité et résiliation finale

L’appréciation du produit lui-même reste forte, et, en théorie, tout fonctionne très bien avec de nombreuses opportunités
- Un harness maison basé sur Claude a été développé, et Claude Caude, qui traite des issues GitHub en arrière-plan, est lui aussi très apprécié
- L’écriture de Nerd Enzyklopädie se poursuit également avec Claude Cowork
Le gain de productivité ne se limite pas à un simple multiple à un chiffre, mais relève d’un changement d’échelle, rendant la concrétisation des idées bien plus rapide et facile qu’il y a quelques années
- Le potentiel du produit et son utilité réelle apparaissent donc clairement
- La composition des fonctionnalités est aussi saluée pour son soin
En même temps, les difficultés techniques et organisationnelles liées à l’exploitation d’un tel produit sont reconnues, et vendre de l’inférence repose sur une structure de coût marginal, où chaque temps supplémentaire et chaque nouveau client exigent le même niveau de ressources de calcul
- Cela montre aussi combien il est difficile de bénéficier d’économies d’échelle dans ce modèle
- La difficulté intrinsèque de l’exploitation du service n’est pas niée
Au final, Anthropic semble ne pas pouvoir absorber trop de nouveaux clients à la fois, et le compte est résilié pour alléger cette pression
- L’écart entre l’attachement au produit et les problèmes opérationnels ressentis à l’usage a conduit à la décision de résiliation
- Une décision nourrie par l’accumulation d’un support défaillant, d’une baisse de qualité et d’une confusion persistante autour des limites

10 commentaires

iolothebard 4 일 전

« une allocation de tokens rapide et qui semblait équitable pendant les premières semaines » ??
Qui décide de ce qui est équitable ?

savvykang 4 일 전

Quand on voit qu’un service à 220 dollars par mois n’arrive même pas à atteindre 99,5 % de disponibilité, on en vient à se demander si l’utilisateur n’est pas pris pour un pigeon. Claude.ai n’atteint même pas 99 % non plus.

geralt 4 일 전

Quel service utilisez-vous à la place ? Codex ? Je continue à l’utiliser faute de voir une alternative...

vndk2234 4 일 전

C’est vrai qu’il n’y a pas vraiment d’alternative, mais c’est bien la première fois de ma vie que j’utilise un service incapable de maintenir ne serait-ce que 99 % d’uptime...

lamanus 4 일 전

GitHub devrait sans doute se battre non pas contre 99, mais contre 95.

savvykang 4 일 전

À cause des problèmes de synchronisation des données de projet dans Claude ai, il n’est pas facile de migrer, donc pour le moment je compte utiliser en parallèle Claude Code, Codex et Gemini CLI.

savvykang 4 일 전

S'il existe des alternatives, je suis preneur moi aussi.

picopress 4 일 전

Limite d’utilisation mensuelle
Limite d’utilisation annuelle
mdrr...

emptybynature 4 일 전

Quand Claude et ChatGPT se font concurrence, c’est tout bénéfice pour les consommateurs haha. J’aimerais aussi que Gemini entre vite dans la bataille, et les modèles chinois progressent à une vitesse folle, donc j’espère qu’ils vont tous se livrer une guerre acharnée.

GN⁺ 5 일 전

Avis de Hacker News

Même en fournissant des spécifications détaillées réparties sur plusieurs fichiers, en Markdown avec du code d’exemple, puis en les passant à Claude Sonnet, il arrivait qu’il oublie des exigences, produise du code dupliqué ou ajoute des transformations de données inutiles
On voyait aussi qu’il bricolait les tests juste pour les faire passer, si bien qu’au final, au lieu d’écrire du code, on se retrouvait à lire une énorme quantité de code
Déjà, même sans ça, lire du code et se construire un modèle mental est bien plus difficile que coder soi-même, et avec la Gen AI, cette charge augmente encore
Donc, au niveau de prix actuel d’Anthropic, ça semble être une perte nette
Je ne fais pas du vibe coding mais des logiciels dont de vrais utilisateurs dépendent, donc je pense résilier l’abonnement bientôt
- Il ne faut pas laisser l’IA écrire le code à votre place, mais l’utiliser plutôt comme un assistant de revue de code
  La faire relire dans le cycle habituel tests/lint, évaluer rapidement des bibliothèques tierces, explorer un nouveau sujet, esquisser un RFC ou un document de conception, ou s’en servir comme interlocuteur quand on bloque sur un problème difficile me paraît plus pertinent
  Je n’aime pas particulièrement les entreprises d’IA en général, et le malaise lié au fait que tout cela repose sur des violations du droit d’auteur demeure, mais les modèles récents sont, sur certains points, absurdement intelligents
  Pas besoin d’adhérer au hype du vibecoding : comme simple outil de productivité, cela a déjà de la valeur
  On peut aussi choisir de ne pas s’en servir du tout, et on n’a aucune obligation de payer une entreprise en particulier, mais il ne faut pas rejeter toute cette technologie uniquement à cause du vibecoding
- Il vaut mieux arrêter de tout envoyer d’un coup et découper le travail en microgestion
  Au lieu de lui confier tout le système à partir des spécifications, il vaut mieux faire la conception soi-même, demander éventuellement de l’aide sur ce point, puis faire implémenter une chose à la fois
  Si on vérifie et corrige à chaque étape avant de passer à la suivante, cela reste plus rapide que de tout écrire soi-même, tout en étant bien plus contrôlable
- La méthode qui consiste à rédiger des spécifications détaillées pour tout confier à l’IA n’est pas optimale
  Cela ressemble davantage à du vibecoding avec une étape de documentation supplémentaire, et si l’objectif est de réduire le travail de mise en forme, mieux vaut utiliser le meilleur modèle disponible à l’instant T plutôt que Sonnet
  Cela dit, aucun modèle ne gère tout parfaitement, donc il ne faut pas l’utiliser en mode tout ou rien
  En continuant à garder son propre jugement, puis en branchant l’IA uniquement là où elle aide réellement, on gagne en vitesse de manière réaliste
  C’est généralement comme ça que les ingénieurs non juniors finissent par l’utiliser, et il vaut mieux ignorer les exagérations sur LinkedIn ou les réseaux sociaux autour de la génération automatique d’apps
- Le problème que beaucoup de gens rencontrent semble venir d’attentes irréalistes
  Avec une méthode assez similaire, j’arrive à produire du code plus vite et avec une meilleure qualité, et cela a aussi beaucoup réduit la fatigue de mes poignets
  La différence semble être dans le fait de ne déléguer à l’IA que ce qu’elle peut réellement faire, avec un périmètre étroit et progressif
  De petites modifications claires sont faciles à relire, mais recevoir chaque jour un dump de 10 000 lignes de code est très difficile à évaluer
  Il est possible que vous poussiez trop fort, trop vite, trop tôt
  Avec un bon équilibre, la valeur devient visible ; ce n’est peut-être pas explosivement plus rapide que prévu, mais cela peut tout de même rester plus rapide que de travailler seul
- J’ai peut-être une manière différente de l’utiliser, mais si je décris simplement ce que je veux et comment je le veux, Opus 4.7 me propose un plan que j’examine de très près
  Il faut souvent valider et vérifier, et il faut aussi revoir le plan plusieurs fois, mais j’utilise encore Opus pour l’implémentation
  Le modèle semble actuellement mettre le cache en avant, au point d’afficher parfois un avertissement disant de ne pas implémenter avec Sonnet
  Cela demande du temps à lire et comprendre, et je fais souvent des corrections manuelles, mais en général ça reste dans l’abonnement Pro
J’utilise Claude Opus de façon assez efficace, et avec l’abonnement intermédiaire je ne heurte pas souvent les limites
Mon mode de travail est plus proche d’un copilot que d’un autopilot : je ne lui soumets par prompt que des tâches à portée limitée, et je relis presque tout
Pour cet usage, j’ai l’impression que les modèles de tête sont presque arrivés à un niveau suffisamment bon
J’aimerais qu’un modèle open source entraîné sur une base de code correctement licenciée émerge, afin que le codage assisté par LLM devienne une commodité
- Moi aussi je l’utilise plutôt en mode copilot, avec une satisfaction globale, mais j’ai vraiment l’impression que les fournisseurs veulent nous pousser vers le mode autopilot
  Ils veulent nous faire consommer plus de tokens pour facturer davantage, tout en donnant aussi l’impression que l’usage réel dépasse leurs prévisions et que la tarification actuelle tient mal
  Au fond, si leur solution consiste à pousser vers une offre plus chère, ces deux aspects ne sont pas totalement contradictoires
- J’ai l’impression que la commoditisation du codage assisté par LLM a déjà eu lieu
  Ça coûte 100 dollars par mois, et dans les pays développés il n’est pas rare de payer plus cher son électricité
  Pour moi, le codage assisté par LLM signifie comprendre entièrement chaque changement et chaque ligne ; si ce n’est pas le cas, c’est du vibe coding
  Si on applique vraiment ce principe, il est difficile d’épuiser le quota du palier à 100 $
- Moi aussi je suis en copilot, pas en autopilot
  Parmi les différents modèles, c’est celui qui me paraît le meilleur, mais au lieu de lui confier du vrai travail, je m’en sers surtout parfois comme remplaçant de moteur de recherche
  Je n’ai jamais trouvé les LLM réellement efficaces pour faire le travail à ma place, et l’époque où la documentation technique était utile me manque
  Au final, Claude me semble plus proche d’une béquille qui compense les lacunes de l’expérience développeur
- J’ai Max 5x et j’utilise uniquement Claude Opus en mode xhigh, sans agent ni MCP, uniquement Claude Code
  Il est extrêmement difficile d’épuiser mon quota, et même en lui confiant beaucoup de travail réel, je termine en moyenne à environ 30 % par semaine
  En revanche, à l’époque de Pro, je me heurtais aux limites à une fréquence ridicule, et une seule requête pouvait dépasser 100 % de la session et déclencher une facturation supplémentaire
  Max 5x me semble en pratique bien au-delà d’un simple facteur 5, mais Anthropic reste tellement vague sur les choses comme le surge rate que je ne peux pas l’affirmer avec certitude
  Je regarde avec beaucoup de scepticisme les posts HN du moment du genre « Opus est mort, passons à Codex »
  Il y a sans doute un peu de défoulement, mais certains sentent aussi l’astroturfing
- Pareil pour moi
  Je m’en sers beaucoup pour le travail réel, mais je n’ai jamais atteint la limite
  Faire tourner un LLM pendant des heures ressemble surtout à une recette pour gaspiller son propre temps à retracer ce qu’il a fait et pourquoi
Ce qui m’inquiète, c’est que les gens deviennent dépendants d’une GenAI propriétaire, opaque et sur abonnement
Ils construisent des choses dessus comme si c’était une fondation solide, alors qu’un jour le propriétaire pourrait retirer brutalement cette base
- Malgré tout, ces produits sont largement substituables
  Dernièrement, les rate limits m’agaçaient un peu, donc j’ai préféré Codex à CC, mais ma manière de travailler n’a pratiquement pas changé
- Au moins une partie des investisseurs vise ici une position monopolistique
  Ils veulent dépenser assez pour écraser la concurrence et créer un écart impossible à rattraper, puis fixer les prix comme ils l’entendent
  Malgré cela, la concurrence reste intense, et même si Anthropic est le meilleur sur les outils de codage, son avance est plus faible qu’avant
  Honnêtement, dès Opus 4.5, on avait déjà atteint un niveau suffisamment utilisable, et il existe désormais plusieurs modèles de ce niveau
  Gemini Pro 3.1 est comparable, et Codex actuel me semble meilleur qu’Opus 4.5 et plus proche de 4.7
  Moi aussi je change souvent de modèle et d’agent sur un même projet, et le coût de transition est pratiquement nul
  Il suffit de lancer claude au lieu de gemini, copilot ou hermes, donc ma dépendance à un modèle donné reste limitée
  Les fournisseurs vont tenter d’ajouter des fonctionnalités créant de la dépendance, mais les meilleurs modèles sont déjà si intelligents qu’il suffit souvent de leur demander directement ce dont on a besoin
  À l’heure actuelle, le seul moat réellement constant semble être la capacité à produire les meilleurs modèles, et même cela reste superficiel : si Claude Code disparaissait demain, ce ne serait pas catastrophique pour moi
  Les modèles open source auto-hébergeables sont déjà tout proches
- Heureusement, l’IA locale devient chaque jour plus réaliste
- C’est pour ça que je pense que le point clé, ce sont des modèles open source et souverains auxquels tout le monde peut accéder et qu’on peut laisser allumés en permanence
  La compétition entre OpenAI et Anthropic est intéressante, et avec la dynamique open source en plus, on devrait bientôt y arriver
- On imagine très bien un scénario où le propriétaire fait lui-même un rug pull, ou bien où Broadcom rachète le tout pour commencer à presser les clients
Claude, en Sonnet medium effort, a consommé 100 % de la limite d’une session et facturé du supplément, puis a réfléchi pendant 53 minutes pour ne produire que
API Error: Claude's response exceeded the 32000 output token maximum...
- Et la blague disant que le septième jour aussi, c’était encore API Error: Claude's response exceeded the 32000 output token maximum, est tombée parfaitement juste
- Je ne pense pas le laisser réfléchir plus de 5 minutes
- Dans ce genre de situation, je me demande si les agentic/vibe coders disent à leur manager : « Je ne peux pas travailler avant demain »
- Si on recolle tel quel ce message d’erreur dans Claude, il arrive souvent à reprendre là où il s’était arrêté
  Je l’ai vu plusieurs fois ces derniers mois ; au début je pensais que c’était un problème AWS Bedrock, mais ce n’est visiblement pas que ça
- Je suis curieux de savoir si c’était le plan Max 5x ou 20x
Plusieurs collègues et moi avons constaté une forte baisse des capacités cognitives de Claude ces deux derniers mois
La 4.5 était utilisable, la 4.6 était vraiment bonne ; sur mes benchmarks personnels, la 4.5 suivait tout juste une boucle de fusion de pointeurs en 2-way, la 4.6 montait au 3-way, et le contexte 1M allait jusqu’au k-way
Cette capacité de suivi la rendait utile pour comprendre et modifier du vrai code de production
Mais depuis deux mois, la 4.6 s’est mise à oublier des choses et à prendre des décisions idiotes, et en comparant entre nous, j’ai vu que je n’étais pas le seul
La 4.7 n’est pas beaucoup mieux, et ces dernières semaines donnent surtout l’impression de se battre sans arrêt contre un auto level of effort downgrade
Quand quelque chose paraît soudain idiot, on regarde les réglages et on découvre qu’ils ont discrètement été rétrogradés, ce qui crée beaucoup de friction
On a déjà prouvé qu’un modèle aussi bon que la 4.6 du début était possible ; le vrai problème, c’est qu’en la mettant sur le marché grand public, Anthropic la bride et la rétrograde, ce qui la rend moins utile en pratique
À mon avis, dès que DeepSeek atteindra un niveau plus que suffisamment bon du type 4.6+, tout le monde va se détourner de Claude, où on paie plus pour obtenir moins
On n’a pas besoin de quelque chose de plus impressionnant ; on veut surtout pouvoir utiliser de manière stable et sous notre contrôle ce qui est déjà possible, avec un mode provisionné plutôt qu’un compteur au token
- C’était un vrai problème, et Anthropic l’a reconnu récemment dans https://www.anthropic.com/engineering/april-23-postmortem
  Quand une entreprise fait ce genre d’erreur, c’est forcément agaçant, mais ils ont ensuite relâché les limites pendant un temps, ce qui équivalait quasiment à une compensation, et surtout ils ont été assez transparents dans leur réponse
  Je ne suis pas sûr qu’un autre grand acteur de l’IA aurait été aussi transparent, donc même si Claude m’agace, je respecte leur manière de traiter le problème
- Si vous n’avez pas mis 4.7 en xhigh ou max effort, c’est pratiquement une perte de temps
Mon abonnement max20 ne sert presque plus depuis avril, car Codex 5.4 puis maintenant 5.5 donnent une impression complètement différente, même en fast mode
Opus échoue de manière plausible, oublie la moitié des détails importants ou pose discrètement des pansements de dette technique au nom du pragmatic, puis prétend avoir réussi
En réalité, le système est cassé après les modifications, et si on lui signale les erreurs, il peut produire un bazar encore pire
Opus est bon pour sortir en une seule fois une portée greenfield convaincante, mais dès qu’il faut itérer ensuite ou faire des intégrations complexes, il devient si mauvais que c’en est nuisible
À l’inverse, GPT 5.4+ prend le temps de réfléchir d’abord aux edge cases, et comme il vise juste, cela réduit les tours de débogage ultérieurs avant de livrer un résultat correct
Il ne s’enferme pas non plus pendant des minutes dans des boucles du genre « ça ne ressemble pas à un malware », « attends un instant », même pour corriger une ligne de script
- Mon modèle mental des LLM est qu’il ne faut pas attendre d’eux qu’ils mâchent du chewing-gum en marchant
  Le nettoyage de code n’est pas le même travail que l’implémentation d’une nouvelle fonctionnalité, et les GLM donnent peut-être l’impression d’être plus intelligents en surface, mais quand on relit le code réel, il faut malgré tout passer par un cycle build/prune
- On comprend qu’on puisse plaisanter en demandant si on peut récupérer l’abonnement max20 inutilisé
- Le flux le plus productif que j’ai eu consistait à garder les deux abonnements : confier à Claude le rôle de foncer sur les fonctionnalités, puis demander à Codex de relire en disant
  « Ce truc est bourré de race conditions, non ? »
  Maintenant je n’utilise plus que Codex, car Claude est difficile à croire et laisse trop souvent passer des data races ou des conditions négatives manquantes
En ce moment, j’utilise Aider, et avec la nouvelle politique d’entraînement, je vais probablement aussi résilier l’abonnement Github multi AI bundle
Utiliser Aider avec de nouveaux modèles ouverts, et discuter des exigences via Open Spec avant de lancer quoi que ce soit, m’a plutôt bien aidé
Les services d’IA ont peu d’incitation à réduire la consommation de tokens
Plus ils vous font en consommer, plus ils gagnent d’argent ; ils vont donc probablement continuer à tester jusqu’où ils peuvent pousser juste avant que l’utilisateur ne s’énerve
Toutes les entreprises d’IA vont continuer à se repositionner entre consommation de tokens et prix à mesure que leurs coûts évoluent
Et nous ressemblons à une grenouille dans une eau tiède qui est presque en train de bouillir, alors qu’on nous dit encore que c’est un bain
- On disait déjà avec AWS : « Pourquoi essaieraient-ils d’économiser votre argent ? », mais en réalité, plus les prix baissaient, plus les usages augmentaient, et plus ils gagnaient
  Les entreprises d’IA ont le même type d’incitation
  Si c’est moins cher, on l’utilise davantage, et tant que le prix reste au-dessus du coût, le profit total peut au final augmenter
  Elles ont donc évidemment aussi intérêt à réduire leurs propres coûts
- C’est vrai jusqu’à un certain point, mais dès que les contraintes de capacité deviennent réelles et qu’Anthropic n’est pas en situation de monopole, la pression concurrentielle change les incitations économiques
- Je pense que les gens vont se lasser de plus en plus du lock-in via des agents fermés
  C’est pour ça que j’ai créé, en open source, https://github.com/dirac-run/dirac (un fork de cline) avec pour seul objectif l’efficacité en tokens
  Je pense que les acteurs fermés du lock-in vont frustrer suffisamment leurs utilisateurs avec le temps, et on cherche des contributeurs
- Il y a une incitation de ce type jusqu’à un certain point, puis cela change quand ils n’arrivent plus à absorber les utilisateurs et que les clients commencent à partir
- C’est aussi mon avis
  Ça sonne comme une théorie du complot, mais une entreprise comme Anthropic a aussi intérêt lorsque le modèle ne termine pas le travail
  J’ai récemment lu à propos du phénomène d’over editing, et on a l’impression que la machine ne veut jamais finir
  C’est un peu comme les applis de rencontre qui ne veulent pas vraiment de bons matchs
  Si ça réussit, l’utilisateur résilie son abonnement
Hier, j’ai eu une sorte de révélation
J’ai confié une simple tâche d’extraction à Claude Code branché sur un LLM local, et il a simplement mouliné pendant 10 minutes
En donnant le même jeu de données et le même prompt directement au modèle via l’UI de chat llama_cpp, j’ai obtenu un résultat en single-shot en moins d’une minute
Il faut donc bien conclure que quelque chose cloche soit dans l’agent de codage lui-même, soit dans la façon de dialoguer avec le LLM
Je cherche maintenant un agent de codage open source vraiment très simple ; Nanocoder s’installe mal sur Mac et traîne trop de node-modules, et Opencode ne me semble pas complètement open source
Pour l’instant, je fais moi-même office d’agent de codage avec l’interface web de llama_cpp, et ça fonctionne plutôt bien
- https://pi.dev/ semble populaire, et je me demande ce qui ne serait pas open source dans Opencode
  Le dépôt est sous MIT License
- C’est peut-être un peu à côté, mais vous pouvez simplement demander à l’IA que vous utilisez de vous construire elle-même l’agent voulu
  Si vous cherchez un agent de codage « extrêmement simple », c’est même l’occasion idéale de le faire sur mesure
  J’ai vraiment essayé cette semaine, agacé par les comportements bizarres d’Anthropic, et en quelques jours j’avais quelque chose d’utilisable
  Dans mon cas, c’était encore plus simple de le bootstrapper et de le raccorder moi-même, parce que Claude Code n’existe ni sur BeOS ni sur les vieux Mac
  Ce processus permet aussi d’apprendre beaucoup sur le fonctionnement réel du modèle, et sur la quantité de patchs pansement absurdes présents dans Claude Code
  Bien sûr, on comprend aussi un peu mieux les vraies difficultés que l’agent ou le harnais doit résoudre
  Et j’ai moi aussi constaté que Claude Code est lent par rapport à llama_cpp ; je soupçonne que le trafic API soit prioritaire sur le trafic abonnement
  L’API paraît beaucoup plus rapide, mais elle coûte aussi nettement plus cher
- Au cas où vous n’y auriez pas pensé : construisez simplement vous-même l’agent de codage que vous voulez
  La structure est bien plus simple qu’on ne l’imagine
- À ce stade, il devrait exister un outil situé quelque part entre un TUI et un IDE
- On peut aussi faire tourner CC avec un modèle local, et ce n’est pas si compliqué
  Je l’ai fait en pratique en ajoutant à vLLM un fin shim qui ne modifie que la syntaxe de l’endpoint
Parfois, le même modèle Claude fait des erreurs de logique à certains moments et pas à d’autres
On a vraiment l’impression que les performances de Claude dépendent de l’heure, et il existe même un graphique qui le montre
https://marginlab.ai/trackers/claude-code/
On en parle peu publiquement, mais j’ai aussi l’impression que les résultats varient pas mal selon la quantization, même pour un même modèle
Le 4-bit et le 8-bit n’ont ni les mêmes besoins de calcul ni la même qualité de sortie
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
Je sais bien que les frontier models ne se comportent pas tous de façon identique, mais aux heures de pointe je me demande s’il n’existe pas quelque part un fidelity dial servant à réduire l’usage mémoire ou ressources et donc à dégrader les performances
- Je ne suis pas convaincu que ce graphique montre réellement une corrélation temporelle
  La ligne des 60 % reste dans l’intervalle de confiance à 95 %, donc on peut aussi se dire que ce n’est peut-être que du bruit de mesure

Pourquoi j’ai résilié Claude : problèmes de tokens, baisse de qualité et support défaillant

Satisfaction initiale puis changement

Problèmes de qualité du support

Baisse de qualité

Confusion autour du cache et de l’affichage des limites

Effet sur la productivité et résiliation finale

À lire aussi

10 commentaires

Avis de Hacker News