Anthropic réduit le TTL du cache de 1 heure à 5 minutes le 6 mars 2026
(github.com/anthropics)- Début mars 2026, le TTL du cache de Claude Code a été modifié de 1 heure à 5 minutes, et ce changement a été constaté, à usage identique, comme provenant d’une différence de configuration côté serveur
- Avec ce raccourcissement du TTL, le coût de régénération du cache augmente de 20 à 32 % et, lors de longues sessions, la consommation de quota grimpe fortement
- L’analyse montre un surcoût d’environ 17 % selon les modèles, et certains utilisateurs ont commencé à atteindre la limite de quota sur 5 heures
- Anthropic a expliqué que le changement du 6 mars était intentionnel, avec un TTL appliqué différemment selon les requêtes afin de réduire le coût global
- La communauté critique la hausse des coûts, le manque de transparence et l’absence de préavis, et demande de garantir aux utilisateurs le choix du réglage du TTL
Rapport sur les problèmes de coût et de quota liés au changement du TTL du cache
- Il a été analysé que la valeur par défaut du TTL du cache de Claude Code d’Anthropic est passée de 1 heure à 5 minutes début mars 2026
- Analyse fondée sur 119 866 appels d’API entre le 11 janvier et le 11 avril 2026
- Entre le 6 et le 8 mars, le TTL de 5 minutes réapparaît tandis que celui d’1 heure disparaît progressivement
- Le phénomène se produisant avec la même version du client et les mêmes usages, il a été confirmé comme un changement de configuration côté serveur
- Avec ce changement de TTL, le coût de création du cache augmente de 20 à 32 %, et une forte hausse de la consommation de quota chez les abonnés a été observée
- Avec un TTL de 5 minutes, si une session reste inactive plus de 5 minutes, le cache expire et tout le contexte doit être téléversé à nouveau
- La régénération du cache est jusqu’à 12,5 fois plus coûteuse qu’une lecture, et le coût s’accumule d’autant plus lors de longues sessions de code
- En février, quand le TTL d’1 heure était maintenu, le taux de gaspillage était de 1,1 %, mais après mars il a bondi à 15–53 %
-
Résultats de l’analyse des coûts
- Modèle
claude-sonnet-4-6: coût total 5 561,17 $ → 4 612,09 $ avec un TTL d’1 heure (environ 17,1 % de dépense excédentaire) - Modèle
claude-opus-4-6: coût total 9 268,97 $ → 7 687,17 $ avec un TTL d’1 heure (environ 17,1 % de dépense excédentaire) - Le même niveau de gaspillage apparaît de manière cohérente entre les modèles
- Modèle
-
Impact sur le quota
- Les jetons de création de cache sont entièrement comptabilisés dans le quota, tandis que les lectures du cache sont calculées avec une pondération plus faible
- Après mars, des abonnés ont commencé, pour la première fois, à atteindre la limite de quota sur 5 heures
Réponse officielle d’Anthropic
- Reconnaissance du changement : la modification du 6 mars était intentionnelle et a été effectuée dans le cadre d’un travail d’optimisation du cache
- Le système est conçu pour appliquer des TTL différents selon le type de requête, et il n’existe pas de valeur par défaut globale unique
- Appliquer un TTL d’1 heure à toutes les requêtes pourrait au contraire augmenter les coûts
- Un TTL de 5 minutes est plus efficace pour les requêtes qui ne sont pas réutilisées et, sur l’ensemble des combinaisons de requêtes, il permet de réduire le coût total
- Correction de bug : dans la v2.1.90, correction d’un bug client qui forçait un TTL de 5 minutes jusqu’à la fin de la session lorsque tout le quota d’abonnement avait été consommé
- Réponse aux demandes
- Il y a bien eu un changement, appliqué intentionnellement le 6 mars
- Le TTL est choisi dynamiquement selon chaque requête, sans valeur par défaut globale
- Aucun retour prévu à un TTL d’1 heure par défaut, ni d’option de configuration prévue
- Le mode de prise en compte des jetons de lecture du cache dans le quota fera l’objet d’un suivi séparé
Réaction de la communauté
-
De nombreux utilisateurs ont exprimé leur mécontentement en pointant une hausse des coûts et une dégradation de l’usage
- Beaucoup estiment qu’« un TTL de 5 minutes revient en pratique à redémarrer la session toutes les 5 minutes, ce qui nuit à la productivité »
- D’autres soulignent que « les abonnés ont déjà payé à l’avance, mais le changement de TTL a réduit leur temps d’usage effectif »
- Des demandes se multiplient pour qu’« un changement ayant un impact sur le coût utilisateur fasse l’objet d’un préavis obligatoire »
-
Certains utilisateurs ont mentionné un effet positif pour les utilisateurs de l’API, mais d’autres ont rétorqué que « pour l’API, le TTL de 5 minutes était déjà la valeur par défaut »
-
Les critiques se concentrent sur le manque de transparence
- « Les changements d’infrastructure liés aux coûts doivent être annoncés à l’avance, pas expliqués après coup »
- « Ce type de “changement silencieux” érode la confiance et force les utilisateurs à remonter eux-mêmes à la cause du problème »
-
D’après la documentation, le cache par défaut utilise un TTL de 5 minutes, tandis que le TTL d’1 heure est proposé comme option entraînant un coût supplémentaire
- La même explication figure également dans la documentation officielle en janvier 2026
Conclusion
- Le 6 mars 2026, Anthropic a modifié la politique de TTL du cache de Claude Code de 1 heure à 5 minutes
- L’entreprise l’a présenté comme un ajustement intentionnel d’optimisation des coûts, mais les utilisateurs dénoncent la hausse des coûts, l’épuisement du quota et le manque de transparence
- La communauté demande désormais de garantir aux utilisateurs le choix du réglage du TTL et de prévenir à l’avance en cas de changement de politique
1 commentaires
Réactions sur Hacker News
Ces derniers mois, on a nettement l’impression que l’humeur des ingénieurs vis-à-vis de Claude/Codex a changé
En particulier, avec la multiplication des changements non annoncés, l’inquiétude grandit : les gens ne savent plus si le produit pour lequel ils ont payé au départ est toujours le même
Quand on parle d’Anthropic en ce moment, c’est le plus souvent dans un contexte négatif
Il y a même eu un moment où l’usage a soudainement été multiplié par 21, et globalement cela ressemble à une tentative de réduction des coûts
J’aime toujours Claude, mais il devient de plus en plus difficile de le recommander à des amis
Notre EVP a montré deux démos qu’il avait faites pendant le week-end et nous a dit de faire pareil, mais au bout d’une semaine, un avis d’arrêt d’utilisation est tombé à cause d’une surconsommation de tokens
Depuis, on a l’impression que le modèle s’affaiblit chaque semaine, et je me demande dans quel état d’esprit est l’EVP aujourd’hui
Je suis passé à Codex et c’était bien plus stable
À mon avis, la stratégie consiste à le maintenir puissant juste après la sortie, puis à réduire progressivement les performances avec le temps pour faire monter l’attente de la prochaine release
J’ai changé plusieurs réglages et modifié les prompts système par script, mais il tombe encore souvent dans des boucles logiques
Impossible de savoir s’il s’agit d’un bug, d’un affaiblissement volontaire ou simplement d’une illusion de ma part
C’est peut-être parce que je demande à Claude de refactoriser étape par étape
Une fois, en lui demandant une configuration Grafana, Claude m’a répondu qu’il avait « simplement deviné », et au final il a fallu 35k tokens pour m’indiquer une simple case à cocher
Mes collègues sentent une dégradation des performances et passent à Cursor, mais moi je reste encore sur Claude parce que j’aime toujours son flux de conversation
En ce moment, Claude Code et le service par abonnement sont bien moins utiles qu’avant
Les problèmes s’accumulent : bugs, vitesse de consommation des quotas, baisse des performances du modèle, problèmes d’invalidation du cache, soupçons de quantification, etc.
Avant, on pouvait implémenter un prototype d’un seul coup ; maintenant, c’est presque impossible, même avec des spécifications détaillées
ChatGPT aussi semble s’être affaibli de la même manière
Ni Anthropic ni OpenAI ne semblent apporter de solution de fond
Il y a encore quelques mois, beaucoup disaient que Cursor était mort, mais aujourd’hui il l’utilise au contraire très bien
Les limites de quota par session sont tellement strictes que l’UX entre dans un cercle vicieux
Quand le cache d’une heure expire, redémarrer coûte plus cher, ce qui fait que la session suivante s’épuise encore plus vite
À la mi-mars, même avec le plan Pro, les sessions se terminaient en moins d’une heure, au point de devenir pratiquement inutilisables
La formulation du titre était trompeuse à cause d’une mauvaise notation
Il aurait fallu écrire « min » au lieu de « M », ce qui donnait l’impression que le TTL passait d’une heure à 5 mois
En ce moment, Claude se trompe souvent même sur des questions de car wash
Il a tendance à exagérer la difficulté d’un problème, ou à choisir la facilité en disant que « cela prendrait trop de temps »
Dans les logs JSON, on voit revenir des phrases du type « c’est trop complexe, traitons-le en dur »
On dirait qu’Anthropic essaie de trouver un équilibre entre manque de ressources de calcul et forte hausse des nouveaux utilisateurs
C’est une méthode de motivation des LLM un peu agressive, mais efficace
Anthropic a laissé une réponse officielle dans une issue GitHub
J’ai moi-même créé un outil de chat basé sur l’API avec du cache
Avec un cache de 5 minutes, le rythme de la conversation ne colle pas et il expire souvent, mais dans les outils avec un préfixe commun, l’économie est importante
Quand le cache est bien exploité, la réduction des coûts est substantielle
Comme la politique d’expiration du cache ne colle pas avec des sessions de 5 heures, j’envisage une méthode pour maintenir le cache vers 97 % d’utilisation de session : un script qui consomme le minimum de tokens toutes les 4 minutes 50
Dans le podcast de Dwarkesh, j’ai entendu dire qu’Anthropic restait prudente dans l’extension de ses ressources de calcul
En cas de forte hausse de la demande, il serait inévitable de chercher à réduire la quantité de calcul
Ce n’est pas un problème qu’on résout à court terme simplement en injectant plus d’argent
Indépendamment des changements étranges chez Anthropic/Claude, en regardant les données du tableau de ce post, je suis perplexe : les coûts et le nombre d’appels en février et en avril sont presque identiques
Je ne sais pas ce que j’ai raté