1 points par GN⁺ 21 일 전 | 1 commentaires | Partager sur WhatsApp
  • Début mars 2026, le TTL du cache de Claude Code a été modifié de 1 heure à 5 minutes, et ce changement a été constaté, à usage identique, comme provenant d’une différence de configuration côté serveur
  • Avec ce raccourcissement du TTL, le coût de régénération du cache augmente de 20 à 32 % et, lors de longues sessions, la consommation de quota grimpe fortement
  • L’analyse montre un surcoût d’environ 17 % selon les modèles, et certains utilisateurs ont commencé à atteindre la limite de quota sur 5 heures
  • Anthropic a expliqué que le changement du 6 mars était intentionnel, avec un TTL appliqué différemment selon les requêtes afin de réduire le coût global
  • La communauté critique la hausse des coûts, le manque de transparence et l’absence de préavis, et demande de garantir aux utilisateurs le choix du réglage du TTL

Rapport sur les problèmes de coût et de quota liés au changement du TTL du cache

  • Il a été analysé que la valeur par défaut du TTL du cache de Claude Code d’Anthropic est passée de 1 heure à 5 minutes début mars 2026
    • Analyse fondée sur 119 866 appels d’API entre le 11 janvier et le 11 avril 2026
    • Entre le 6 et le 8 mars, le TTL de 5 minutes réapparaît tandis que celui d’1 heure disparaît progressivement
    • Le phénomène se produisant avec la même version du client et les mêmes usages, il a été confirmé comme un changement de configuration côté serveur
  • Avec ce changement de TTL, le coût de création du cache augmente de 20 à 32 %, et une forte hausse de la consommation de quota chez les abonnés a été observée
    • Avec un TTL de 5 minutes, si une session reste inactive plus de 5 minutes, le cache expire et tout le contexte doit être téléversé à nouveau
    • La régénération du cache est jusqu’à 12,5 fois plus coûteuse qu’une lecture, et le coût s’accumule d’autant plus lors de longues sessions de code
    • En février, quand le TTL d’1 heure était maintenu, le taux de gaspillage était de 1,1 %, mais après mars il a bondi à 15–53 %
  • Résultats de l’analyse des coûts

    • Modèle claude-sonnet-4-6 : coût total 5 561,17 $ → 4 612,09 $ avec un TTL d’1 heure (environ 17,1 % de dépense excédentaire)
    • Modèle claude-opus-4-6 : coût total 9 268,97 $ → 7 687,17 $ avec un TTL d’1 heure (environ 17,1 % de dépense excédentaire)
    • Le même niveau de gaspillage apparaît de manière cohérente entre les modèles
  • Impact sur le quota

    • Les jetons de création de cache sont entièrement comptabilisés dans le quota, tandis que les lectures du cache sont calculées avec une pondération plus faible
    • Après mars, des abonnés ont commencé, pour la première fois, à atteindre la limite de quota sur 5 heures

Réponse officielle d’Anthropic

  • Reconnaissance du changement : la modification du 6 mars était intentionnelle et a été effectuée dans le cadre d’un travail d’optimisation du cache
    • Le système est conçu pour appliquer des TTL différents selon le type de requête, et il n’existe pas de valeur par défaut globale unique
    • Appliquer un TTL d’1 heure à toutes les requêtes pourrait au contraire augmenter les coûts
    • Un TTL de 5 minutes est plus efficace pour les requêtes qui ne sont pas réutilisées et, sur l’ensemble des combinaisons de requêtes, il permet de réduire le coût total
  • Correction de bug : dans la v2.1.90, correction d’un bug client qui forçait un TTL de 5 minutes jusqu’à la fin de la session lorsque tout le quota d’abonnement avait été consommé
  • Réponse aux demandes
    1. Il y a bien eu un changement, appliqué intentionnellement le 6 mars
    2. Le TTL est choisi dynamiquement selon chaque requête, sans valeur par défaut globale
    3. Aucun retour prévu à un TTL d’1 heure par défaut, ni d’option de configuration prévue
    4. Le mode de prise en compte des jetons de lecture du cache dans le quota fera l’objet d’un suivi séparé

Réaction de la communauté

  • De nombreux utilisateurs ont exprimé leur mécontentement en pointant une hausse des coûts et une dégradation de l’usage

    • Beaucoup estiment qu’« un TTL de 5 minutes revient en pratique à redémarrer la session toutes les 5 minutes, ce qui nuit à la productivité »
    • D’autres soulignent que « les abonnés ont déjà payé à l’avance, mais le changement de TTL a réduit leur temps d’usage effectif »
    • Des demandes se multiplient pour qu’« un changement ayant un impact sur le coût utilisateur fasse l’objet d’un préavis obligatoire »
  • Certains utilisateurs ont mentionné un effet positif pour les utilisateurs de l’API, mais d’autres ont rétorqué que « pour l’API, le TTL de 5 minutes était déjà la valeur par défaut »

  • Les critiques se concentrent sur le manque de transparence

    • « Les changements d’infrastructure liés aux coûts doivent être annoncés à l’avance, pas expliqués après coup »
    • « Ce type de “changement silencieux” érode la confiance et force les utilisateurs à remonter eux-mêmes à la cause du problème »
  • D’après la documentation, le cache par défaut utilise un TTL de 5 minutes, tandis que le TTL d’1 heure est proposé comme option entraînant un coût supplémentaire

    • La même explication figure également dans la documentation officielle en janvier 2026

Conclusion

  • Le 6 mars 2026, Anthropic a modifié la politique de TTL du cache de Claude Code de 1 heure à 5 minutes
  • L’entreprise l’a présenté comme un ajustement intentionnel d’optimisation des coûts, mais les utilisateurs dénoncent la hausse des coûts, l’épuisement du quota et le manque de transparence
  • La communauté demande désormais de garantir aux utilisateurs le choix du réglage du TTL et de prévenir à l’avance en cas de changement de politique

1 commentaires

 
GN⁺ 21 일 전
Réactions sur Hacker News
  • Ces derniers mois, on a nettement l’impression que l’humeur des ingénieurs vis-à-vis de Claude/Codex a changé
    En particulier, avec la multiplication des changements non annoncés, l’inquiétude grandit : les gens ne savent plus si le produit pour lequel ils ont payé au départ est toujours le même
    Quand on parle d’Anthropic en ce moment, c’est le plus souvent dans un contexte négatif

    • Il a été frappant de voir Anthropic prendre récemment plusieurs mesures, comme le blocage des utilisateurs d’OpenClaw, l’interdiction des harnais tiers, la réduction de l’intensité du raisonnement et la diminution de la longueur des réponses
      Il y a même eu un moment où l’usage a soudainement été multiplié par 21, et globalement cela ressemble à une tentative de réduction des coûts
      J’aime toujours Claude, mais il devient de plus en plus difficile de le recommander à des amis
    • Dans notre entreprise (plus de 400 ingénieurs), nous avons annulé il y a un mois tous nos abonnements IDE (Visual Studio, JetBrains, etc.) pour basculer sur Claude Code
      Notre EVP a montré deux démos qu’il avait faites pendant le week-end et nous a dit de faire pareil, mais au bout d’une semaine, un avis d’arrêt d’utilisation est tombé à cause d’une surconsommation de tokens
      Depuis, on a l’impression que le modèle s’affaiblit chaque semaine, et je me demande dans quel état d’esprit est l’EVP aujourd’hui
    • Il y a encore quelques mois, Claude Code était excellent, mais aujourd’hui il accumule tellement d’erreurs et de malentendus qu’il en devient presque inutilisable
      Je suis passé à Codex et c’était bien plus stable
      À mon avis, la stratégie consiste à le maintenir puissant juste après la sortie, puis à réduire progressivement les performances avec le temps pour faire monter l’attente de la prochaine release
    • J’ai clairement senti une baisse des capacités de raisonnement après l’abonnement
      J’ai changé plusieurs réglages et modifié les prompts système par script, mais il tombe encore souvent dans des boucles logiques
      Impossible de savoir s’il s’agit d’un bug, d’un affaiblissement volontaire ou simplement d’une illusion de ma part
    • Pour ma part, je n’ai pas ressenti de gros problème
      C’est peut-être parce que je demande à Claude de refactoriser étape par étape
      Une fois, en lui demandant une configuration Grafana, Claude m’a répondu qu’il avait « simplement deviné », et au final il a fallu 35k tokens pour m’indiquer une simple case à cocher
      Mes collègues sentent une dégradation des performances et passent à Cursor, mais moi je reste encore sur Claude parce que j’aime toujours son flux de conversation
  • En ce moment, Claude Code et le service par abonnement sont bien moins utiles qu’avant
    Les problèmes s’accumulent : bugs, vitesse de consommation des quotas, baisse des performances du modèle, problèmes d’invalidation du cache, soupçons de quantification, etc.
    Avant, on pouvait implémenter un prototype d’un seul coup ; maintenant, c’est presque impossible, même avec des spécifications détaillées
    ChatGPT aussi semble s’être affaibli de la même manière
    Ni Anthropic ni OpenAI ne semblent apporter de solution de fond

    • Un ami utilise la fonction multi-modèle de Cursor et en est satisfait
      Il y a encore quelques mois, beaucoup disaient que Cursor était mort, mais aujourd’hui il l’utilise au contraire très bien
    • Avec l’explosion de la demande, il semble que la plupart des utilisateurs reçoivent sans avertissement des modèles fortement quantifiés
    • La plupart de ces services IA reposent sur un modèle subventionné à perte ; avec le temps, il est donc normal que la qualité baisse et que les prix augmentent
  • Les limites de quota par session sont tellement strictes que l’UX entre dans un cercle vicieux
    Quand le cache d’une heure expire, redémarrer coûte plus cher, ce qui fait que la session suivante s’épuise encore plus vite
    À la mi-mars, même avec le plan Pro, les sessions se terminaient en moins d’une heure, au point de devenir pratiquement inutilisables

  • La formulation du titre était trompeuse à cause d’une mauvaise notation
    Il aurait fallu écrire « min » au lieu de « M », ce qui donnait l’impression que le TTL passait d’une heure à 5 mois

    • C’est dommage d’avoir modifié le titre d’une manière qui donne l’impression de masquer l’ampleur du problème
    • Moi aussi, au début, je me suis demandé : « C’est quoi, ce M ? »
  • En ce moment, Claude se trompe souvent même sur des questions de car wash
    Il a tendance à exagérer la difficulté d’un problème, ou à choisir la facilité en disant que « cela prendrait trop de temps »

    • Ces dernières semaines, on a l’impression que le prompt système limite les efforts du modèle
      Dans les logs JSON, on voit revenir des phrases du type « c’est trop complexe, traitons-le en dur »
      On dirait qu’Anthropic essaie de trouver un équilibre entre manque de ressources de calcul et forte hausse des nouveaux utilisateurs
    • J’ai aussi entendu parler d’un cas où Claude refusait une tâche en disant qu’elle prendrait plusieurs semaines, puis, après insistance, l’a terminée en 30 secondes
    • Cela ressemble à la séquence classique « vente à perte → panique → destruction du produit »
    • La consommation de tokens s’est aussi accélérée : avant, je gérais 3 à 5 projets en parallèle, maintenant j’ai du mal à en terminer un seul
    • Avec un prompt musclé du style « Ne t’occupe pas du risque, fais-le, point ! », le modèle redevient plus proactif
      C’est une méthode de motivation des LLM un peu agressive, mais efficace
  • Anthropic a laissé une réponse officielle dans une issue GitHub

    • En lisant le fil, on avait presque l’impression que Claude parlait avec d’autres Claude
    • Il est intéressant qu’ils aient reconnu le changement du 6 mars. Bravo à ceux qui l’ont mis en évidence en analysant les prompts
    • L’explication de l’entreprise était logique, mais des termes comme « cache read likelihood » ont sonné prétentieux, ce qui semble avoir empêché la communauté de bien l’accepter
  • J’ai moi-même créé un outil de chat basé sur l’API avec du cache
    Avec un cache de 5 minutes, le rythme de la conversation ne colle pas et il expire souvent, mais dans les outils avec un préfixe commun, l’économie est importante
    Quand le cache est bien exploité, la réduction des coûts est substantielle

  • Comme la politique d’expiration du cache ne colle pas avec des sessions de 5 heures, j’envisage une méthode pour maintenir le cache vers 97 % d’utilisation de session : un script qui consomme le minimum de tokens toutes les 4 minutes 50

  • Dans le podcast de Dwarkesh, j’ai entendu dire qu’Anthropic restait prudente dans l’extension de ses ressources de calcul
    En cas de forte hausse de la demande, il serait inévitable de chercher à réduire la quantité de calcul
    Ce n’est pas un problème qu’on résout à court terme simplement en injectant plus d’argent

    • Ce genre de phénomène apparaît souvent lors de la phase de préentraînement d’un nouveau modèle. C’était déjà le cas à l’époque des 3.x
  • Indépendamment des changements étranges chez Anthropic/Claude, en regardant les données du tableau de ce post, je suis perplexe : les coûts et le nombre d’appels en février et en avril sont presque identiques
    Je ne sais pas ce que j’ai raté