Calculateur du coût des tokens pour Opus 4.6 et Opus 4.7
(tokens.billchambers.me)- Un outil de calcul permettant d’analyser le problème posé par le nouveau tokenizer d’Opus 4.7, qui fait que le même prompt est comptabilisé avec davantage de tokens
- Une même entrée est mappée vers 1,0 à 1,35 fois plus de tokens selon le type de contenu, ce qui entraîne une hausse du coût par requête sans même changer les mots
- D’après les mesures réelles, Opus 4.7 affiche en moyenne, par rapport à Opus 4.6, une hausse de +37,4 % du nombre de tokens de requête et du coût par requête
- Sur les 50 cas les plus récents, la hausse va d’un minimum de +19,0 % à un maximum de +86,2 %, avec une large concentration de cas dans les +30 % et +40 %
- Sur cette page, il suffit de coller une conversation, un prompt système ou du texte pour obtenir une comparaison détaillée entre Opus 4.7 et 4.6 sur le nombre de tokens ainsi que le coût selon les tarifs actuels
Contexte de création de cet outil
- Dans l’annonce de sortie d’Opus 4.7, il était présenté comme une mise à niveau directe par rapport à Opus 4.6, mais deux changements ont un impact sur l’usage des tokens
- Avec le tokenizer mis à jour, une même entrée est mappée vers 1,0 à 1,35 fois plus de tokens selon le type de contenu
- À des niveaux d’effort élevés, en particulier dans les tours tardifs d’environnements agentiques, le modèle raisonne davantage, ce qui augmente le nombre de tokens de sortie
- La fiabilité sur les problèmes difficiles s’améliore, mais cela a un impact direct sur une structure de coût fondée sur les tokens
Impact pour les utilisateurs
- Même avec exactement le même texte de prompt, Opus 4.7 compte davantage de tokens, ce qui augmente le coût par requête sans modifier la formulation
- Tokenomics permet de coller n’importe quelle conversation, prompt système ou texte afin de vérifier directement la différence de nombre de tokens entre Opus 4.7 et 4.6
- L’outil calcule également la différence de coût précise selon les tarifs actuels
Page des moyennes de la communauté
- La page
/leaderboardagrège les données de comparaison anonymisées des utilisateurs de l’outil - Elle permet de voir, en conditions réelles, la hausse moyenne du nombre de tokens selon différents types de prompts
Points à connaître
- Texte des prompts non conservé : l’entrée est analysée dans le navigateur puis envoyée au serveur, qui la transmet à l’API de comptage de tokens d’Anthropic ; le texte du prompt n’est pas stocké en base de données, seuls des indicateurs anonymisés de comptage de tokens sont conservés
- Ce n’est pas un produit officiel d’Anthropic : l’outil a été créé par Bill Chambers et n’a aucun lien d’affiliation, de validation ni de sponsoring avec Anthropic
- Open source : l’intégralité du code source est publiée sur GitHub (
bllchmbrs/tokensmatter), avec contributions et retours bienvenus
Moyennes de la communauté
- Sur la base de comparaisons de requêtes réelles soumises anonymement, la page récapitule les écarts de tokens de requête et de coût de requête entre Opus 4.7 et Opus 4.6
- Statistiques établies à partir de 425 soumissions au total
- La liste des comparaisons récentes porte sur les 50 plus récentes, triées par ordre décroissant de date
- Variation moyenne des tokens de requête : +37,4 %
- Variation moyenne du coût de requête : +37,4 %
- Taille moyenne des requêtes : 369 / 495
- Le texte source ne donne pas d’explication supplémentaire sur ces deux valeurs
Exemples récents de comparaisons anonymes
- Dans le tableau des 50 cas récents, la plupart des entrées montrent une hausse des tokens de requête et une hausse du coût dans la même proportion pour Opus 4.7
- Exemple 1 : soumission
6b5d3ebf, requête 23 → 31, coût $0.000345 → $0.000465, variation +34,8 % - Exemple 2 : soumission
1363973a, requête 99 → 130, coût $0.001485 → $0.001950, variation +31,3 % - Exemple 3 : soumission
17a9645e, requête 16 → 20, coût $0.000240 → $0.000300, variation +25,0 %
- Exemple 1 : soumission
- La hausse est visible même sur de petites requêtes
- Soumission
10c3149a, requête 8 → 14, coût $0.000120 → $0.000210, variation +75,0 % - Soumission
8f58e536, requête 8 → 13, coût $0.000120 → $0.000195, variation +62,5 % - Soumission
942f5d38, requête 12 → 19, coût $0.000180 → $0.000285, variation +58,3 %
- Soumission
- Des hausses comparables se répètent aussi sur des requêtes de taille intermédiaire
- Soumission
67f5f437, requête 188 → 275, coût $0.002820 → $0.004125, variation +46,3 % - Soumission
04249c86, requête 176 → 256, coût $0.002640 → $0.003840, variation +45,5 % - Soumission
af25da70, requête 269 → 501, coût $0.004035 → $0.007515, variation +86,2 %
- Soumission
- Le même schéma d’augmentation apparaît aussi sur les grosses requêtes
- Soumission
c5d75d71, requête 2,263 → 3,282, coût $0.0339 → $0.0492, variation +45,0 % - Soumission
4db385b5, requête 1,592 → 2,205, coût $0.0239 → $0.0331, variation +38,5 % - Soumission
68375705, requête 4,449 → 6,434, coût $0.0667 → $0.0965, variation +44,6 %
- Soumission
- De nombreuses soumissions contiennent des valeurs identiques répétées
- Le cas 175 → 221 en requête, $0.002625 → $0.003315 en coût, variation +26,3 %, revient sur plusieurs identifiants de soumission
- Le cas 996 → 1,392 en requête, $0.0149 → $0.0209 en coût, variation +39,8 %, revient sur plusieurs identifiants de soumission
- Le cas 43 → 61 en requête, $0.000645 → $0.000915 en coût, variation +41,9 %, revient sur plusieurs identifiants de soumission
1 commentaires
Commentaires sur Hacker News
Pour comparer équitablement, il faut regarder le coût total. La 4.7 produit bien moins de tokens de sortie que la 4.6, et le coût de raisonnement semble aussi avoir pas mal baissé. D’après la comparaison d’Artificial Analysis, la 4.7 ressort légèrement moins chère que la 4.6, et la 4.5 est presque à moitié prix. Ce qui saute surtout aux yeux, c’est que le coût du reasoning a presque été divisé par deux entre la 4.6 et la 4.7. En revanche, sur des charges réelles comme Claude Code, les parts d’entrée et de raisonnement semblent toutes deux importantes, donc je ne vois pas encore bien comment la hausse du prix d’entrée et la baisse du prix du raisonnement vont se compenser. Les tâches très gourmandes en raisonnement pourraient coûter moins cher, mais celles qui en demandent peu pourraient au contraire coûter plus cher. Pour ce type de travail, j’utiliserais plutôt Codex
À l’usage, je ne ressens quasiment pas d’amélioration de performances entre la 4.6 et la 4.7, mais en revanche la vitesse de consommation des limites se sent très clairement. Hier, j’ai consommé ma limite de 5 heures en 2 heures, et quand j’ai activé le mode batch pour faire du refactoring, il a englouti 30 % de cette limite en 5 minutes, donc j’ai annulé. Ensuite je suis repassé en mode série, ce qui consommait moins, mais c’était quand même nettement plus rapide qu’avec la 4.6. Maintenant, j’ai l’impression qu’une seule conversation me coûte environ 5 % de la limite sur 5 heures, alors qu’avant c’était plutôt 1 à 2 %. J’ai l’abonnement Max 5x donc j’ai encore de la marge sur la limite hebdomadaire, mais j’aimerais au minimum qu’ils soient plus transparents là-dessus, ou qu’ils améliorent le système. Le réglage effort reste aussi beaucoup trop opaque pour être vraiment utile
Si le résultat est bon, ça me va de payer plus, mais en ce moment j’ai l’impression qu’Anthropic pousse plutôt vers une logique de récompense intermittente qui encourage à continuer de consommer des tokens. La famille Claude est clairement plus amusante que GPT ou Codex, avec plus de personnalité, un meilleur sens du design et une certaine sensibilité esthétique. On a vraiment l’impression de faire du vibe-coding avec, presque comme un jeu. Mais au final, les résultats retombent presque toujours sur les mêmes problèmes : suppression des tests pour les faire passer, multiplication du code dupliqué, mauvaise abstraction, désactivation de la sûreté des types, non-respect des exigences strictes. Ces problèmes ne sont pas réglés dans la 4.7 non plus, et quoi qu’en disent les benchmarks, dans l’usage réel ils restent bien présents. Je ne suis même pas sûr que l’entreprise ait vraiment la volonté de corriger ça
Cette comparaison donne l’impression de mesurer la longueur des prompts de deux façons avec l’API de comptage de tokens afin d’isoler uniquement le changement de tokenizer. Or un modèle plus intelligent peut aussi répondre plus brièvement, ce qui réduit les tokens de sortie, donc en tenant compte de cela, j’ai du mal à conclure à partir de cette seule comparaison que la 4.7 est réellement moins chère. Au final, elle peut très bien être plus chère ou moins chère, mais ce document seul ne me paraît pas très utile pour juger l’usage réel
Pour l’instant, je compte continuer à utiliser Opus 4.5 comme modèle principal dans VSCode Copilot. Dans mon workflow, je donne en général des instructions assez détaillées à l’agent, mais la plupart des agents essaient sans cesse d’en faire plus que nécessaire. Parmi ceux que j’ai testés, ce qu’Opus 4.5 faisait le mieux, c’était justement sa tendance à comprendre la portée exacte de ce que je voulais, même à partir de prompts imparfaits, et à ne faire que le strict nécessaire. La 4.6 prenait plus de temps, réfléchissait de façon excessive et élargissait davantage le périmètre des modifications, et les GPT haut de gamme avaient des problèmes similaires. D’autres modèles comme Sonnet étaient moins bons qu’Opus pour deviner mon intention à partir d’instructions moins précises. J’ai donc arrêté les expérimentations et je suis resté sur la 4.5, que je trouvais chère mais rentable. Mais maintenant qu’on dit que la 4.7 va remplacer à la fois la 4.5 et la 4.6 dans VSCode Copilot, avec en plus un modificateur de 7,5x, de mon point de vue ça ressemble à quelque chose de plus lent et plus cher, donc plutôt à une régression
J’ai de plus en plus l’impression que croire qu’on pourra remplacer massivement le travail de bureau en se contentant de faire grossir les LLM est une hypothèse naïve. Les mécanismes d’attention ou les réseaux de Hopfield donnent l’impression de ne modéliser qu’une partie du cerveau humain, et toutes les rustines actuelles autour de la mémoire agentique me semblent justement montrer que les transformers SOTA actuels ne suffisent pas à eux seuls. Même si on se limite au texte, j’ai le sentiment que des limites apparaissent, mais je ne fais peut-être que répéter les thèses de Yann LeCun
Hier, avec Opus 4.7, j’ai voulu rassembler des bonnes pratiques pour un site web en une seule page, et j’ai dépassé la limite quotidienne en quatre prompts environ. Puis, après encore sept interactions à peu près, j’ai aussi dépassé la limite hebdomadaire. Tout le code HTML/CSS/JS faisait moins de 300 lignes, donc voir le quota d’usage partir aussi vite m’a franchement choqué
Le titre me semble devoir être 4.6 to 4.7, et non l’inverse
D’après l’explication d’Artificial Analysis, Opus 4.7 a coûté environ 4 406 dollars pour faire tourner l’Intelligence Index avec Adaptive Reasoning et Max Effort, soit environ 11 % moins cher que les quelque 4 970 dollars de la 4.6. Le score était supérieur de 4 points, et ils expliquent que cette différence vient d’une baisse du nombre de tokens de sortie, même en tenant compte du nouveau tokenizer. En revanche, la remise sur les entrées en cache n’est pas encore incluse dans ce calcul, mais ils ont indiqué qu’elle le serait bientôt
De mon point de vue, la qualité des échanges s’est améliorée plus que prévu. Le modèle est plus autocritique, il examine aussi ses propositions de manière plus critique, et ses choix par défaut me paraissent globalement meilleurs. Je n’ai pas autant utilisé de harness variés que certaines autres personnes ici, donc la différence est peut-être moins marquée pour moi, mais j’ai l’impression que la valeur ajoutée pourrait au contraire être plus forte pour les utilisateurs moins préparés. Même sur des tâches de base comme revenir sur un flux récent de reviews ou examiner des discussions produit, la 4.6 était utile mais risquait facilement de devenir un foot-gun, alors que la 4.7 semble plus susceptible de se comporter comme un membre senior de l’équipe