2 points par GN⁺ 12 일 전 | 1 commentaires | Partager sur WhatsApp
  • Un outil de calcul permettant d’analyser le problème posé par le nouveau tokenizer d’Opus 4.7, qui fait que le même prompt est comptabilisé avec davantage de tokens
  • Une même entrée est mappée vers 1,0 à 1,35 fois plus de tokens selon le type de contenu, ce qui entraîne une hausse du coût par requête sans même changer les mots
  • D’après les mesures réelles, Opus 4.7 affiche en moyenne, par rapport à Opus 4.6, une hausse de +37,4 % du nombre de tokens de requête et du coût par requête
  • Sur les 50 cas les plus récents, la hausse va d’un minimum de +19,0 % à un maximum de +86,2 %, avec une large concentration de cas dans les +30 % et +40 %
  • Sur cette page, il suffit de coller une conversation, un prompt système ou du texte pour obtenir une comparaison détaillée entre Opus 4.7 et 4.6 sur le nombre de tokens ainsi que le coût selon les tarifs actuels

Contexte de création de cet outil

  • Dans l’annonce de sortie d’Opus 4.7, il était présenté comme une mise à niveau directe par rapport à Opus 4.6, mais deux changements ont un impact sur l’usage des tokens
    • Avec le tokenizer mis à jour, une même entrée est mappée vers 1,0 à 1,35 fois plus de tokens selon le type de contenu
    • À des niveaux d’effort élevés, en particulier dans les tours tardifs d’environnements agentiques, le modèle raisonne davantage, ce qui augmente le nombre de tokens de sortie
  • La fiabilité sur les problèmes difficiles s’améliore, mais cela a un impact direct sur une structure de coût fondée sur les tokens

Impact pour les utilisateurs

  • Même avec exactement le même texte de prompt, Opus 4.7 compte davantage de tokens, ce qui augmente le coût par requête sans modifier la formulation
  • Tokenomics permet de coller n’importe quelle conversation, prompt système ou texte afin de vérifier directement la différence de nombre de tokens entre Opus 4.7 et 4.6
  • L’outil calcule également la différence de coût précise selon les tarifs actuels

Page des moyennes de la communauté

  • La page /leaderboard agrège les données de comparaison anonymisées des utilisateurs de l’outil
  • Elle permet de voir, en conditions réelles, la hausse moyenne du nombre de tokens selon différents types de prompts

Points à connaître

  • Texte des prompts non conservé : l’entrée est analysée dans le navigateur puis envoyée au serveur, qui la transmet à l’API de comptage de tokens d’Anthropic ; le texte du prompt n’est pas stocké en base de données, seuls des indicateurs anonymisés de comptage de tokens sont conservés
  • Ce n’est pas un produit officiel d’Anthropic : l’outil a été créé par Bill Chambers et n’a aucun lien d’affiliation, de validation ni de sponsoring avec Anthropic
  • Open source : l’intégralité du code source est publiée sur GitHub (bllchmbrs/tokensmatter), avec contributions et retours bienvenus

Moyennes de la communauté

  • Sur la base de comparaisons de requêtes réelles soumises anonymement, la page récapitule les écarts de tokens de requête et de coût de requête entre Opus 4.7 et Opus 4.6
    • Statistiques établies à partir de 425 soumissions au total
    • La liste des comparaisons récentes porte sur les 50 plus récentes, triées par ordre décroissant de date
  • Variation moyenne des tokens de requête : +37,4 %
  • Variation moyenne du coût de requête : +37,4 %
  • Taille moyenne des requêtes : 369 / 495
    • Le texte source ne donne pas d’explication supplémentaire sur ces deux valeurs

Exemples récents de comparaisons anonymes

  • Dans le tableau des 50 cas récents, la plupart des entrées montrent une hausse des tokens de requête et une hausse du coût dans la même proportion pour Opus 4.7
    • Exemple 1 : soumission 6b5d3ebf, requête 23 → 31, coût $0.000345 → $0.000465, variation +34,8 %
    • Exemple 2 : soumission 1363973a, requête 99 → 130, coût $0.001485 → $0.001950, variation +31,3 %
    • Exemple 3 : soumission 17a9645e, requête 16 → 20, coût $0.000240 → $0.000300, variation +25,0 %
  • La hausse est visible même sur de petites requêtes
    • Soumission 10c3149a, requête 8 → 14, coût $0.000120 → $0.000210, variation +75,0 %
    • Soumission 8f58e536, requête 8 → 13, coût $0.000120 → $0.000195, variation +62,5 %
    • Soumission 942f5d38, requête 12 → 19, coût $0.000180 → $0.000285, variation +58,3 %
  • Des hausses comparables se répètent aussi sur des requêtes de taille intermédiaire
    • Soumission 67f5f437, requête 188 → 275, coût $0.002820 → $0.004125, variation +46,3 %
    • Soumission 04249c86, requête 176 → 256, coût $0.002640 → $0.003840, variation +45,5 %
    • Soumission af25da70, requête 269 → 501, coût $0.004035 → $0.007515, variation +86,2 %
  • Le même schéma d’augmentation apparaît aussi sur les grosses requêtes
    • Soumission c5d75d71, requête 2,263 → 3,282, coût $0.0339 → $0.0492, variation +45,0 %
    • Soumission 4db385b5, requête 1,592 → 2,205, coût $0.0239 → $0.0331, variation +38,5 %
    • Soumission 68375705, requête 4,449 → 6,434, coût $0.0667 → $0.0965, variation +44,6 %
  • De nombreuses soumissions contiennent des valeurs identiques répétées
    • Le cas 175 → 221 en requête, $0.002625 → $0.003315 en coût, variation +26,3 %, revient sur plusieurs identifiants de soumission
    • Le cas 996 → 1,392 en requête, $0.0149 → $0.0209 en coût, variation +39,8 %, revient sur plusieurs identifiants de soumission
    • Le cas 43 → 61 en requête, $0.000645 → $0.000915 en coût, variation +41,9 %, revient sur plusieurs identifiants de soumission

1 commentaires

 
GN⁺ 12 일 전
Commentaires sur Hacker News
  • Pour comparer équitablement, il faut regarder le coût total. La 4.7 produit bien moins de tokens de sortie que la 4.6, et le coût de raisonnement semble aussi avoir pas mal baissé. D’après la comparaison d’Artificial Analysis, la 4.7 ressort légèrement moins chère que la 4.6, et la 4.5 est presque à moitié prix. Ce qui saute surtout aux yeux, c’est que le coût du reasoning a presque été divisé par deux entre la 4.6 et la 4.7. En revanche, sur des charges réelles comme Claude Code, les parts d’entrée et de raisonnement semblent toutes deux importantes, donc je ne vois pas encore bien comment la hausse du prix d’entrée et la baisse du prix du raisonnement vont se compenser. Les tâches très gourmandes en raisonnement pourraient coûter moins cher, mais celles qui en demandent peu pourraient au contraire coûter plus cher. Pour ce type de travail, j’utiliserais plutôt Codex

    • Si la 4.7 réfléchit moins et produit moins de sortie, à mon avis c’est à cause du forced adaptive thinking. Même les utilisateurs de l’API ne peuvent pas le désactiver, alors que c’est précisément la méthode qui provoquait des problèmes de qualité sur Opus 4.6 il y a à peine deux semaines. À l’époque, il y avait déjà des avis recommandant de la désactiver, et il me semble même qu’on voyait des cas où 0 token était alloué à la réflexion. Même aujourd’hui, beaucoup se plaignent encore d’une baisse de qualité sur Opus 4.7, et moi aussi je vois souvent des erreurs très basiques. Le modèle brûle des tokens pendant 10 minutes sans vraiment lire le code, se contente de hand-waving, puis finit par se contredire lui-même plus tard. J’ai du mal à faire confiance à Opus avec adaptive thinking activé. Je peux fournir des ID de feedback de session si besoin
    • Certains estiment qu’un test du même modèle à différents moments est plus juste, car même avec le même numéro de modèle, le comportement et la consommation de tokens peuvent varier selon la période. Le nom de version peut rester identique alors que le fonctionnement interne change, donc des résultats de test récents ne sont pas forcément un bon point de comparaison pour l’avenir
  • À l’usage, je ne ressens quasiment pas d’amélioration de performances entre la 4.6 et la 4.7, mais en revanche la vitesse de consommation des limites se sent très clairement. Hier, j’ai consommé ma limite de 5 heures en 2 heures, et quand j’ai activé le mode batch pour faire du refactoring, il a englouti 30 % de cette limite en 5 minutes, donc j’ai annulé. Ensuite je suis repassé en mode série, ce qui consommait moins, mais c’était quand même nettement plus rapide qu’avec la 4.6. Maintenant, j’ai l’impression qu’une seule conversation me coûte environ 5 % de la limite sur 5 heures, alors qu’avant c’était plutôt 1 à 2 %. J’ai l’abonnement Max 5x donc j’ai encore de la marge sur la limite hebdomadaire, mais j’aimerais au minimum qu’ils soient plus transparents là-dessus, ou qu’ils améliorent le système. Le réglage effort reste aussi beaucoup trop opaque pour être vraiment utile

    • Le plus agaçant, c’est la baisse de qualité due à l’application forcée d’adaptive thinking. Ça consomme 5 à 10 % de mon quota Max 5x et ça tourne pendant 10 minutes, pour souvent revenir avec un résultat difficilement fiable. Au lieu de lire réellement le code et de raisonner, ça survole le problème, donc j’ai l’impression qu’on ne peut pas faire confiance à Opus avec adaptive thinking activé
    • Si j’ai bien compris, quand on laisse plus de 5 minutes entre deux prompts, on repaie apparemment le coût de réinitialisation du cache, même sans compact ni clear. Même avec compact, le coût ne disparaît pas complètement, on dirait juste que le nombre de tokens d’entrée baisse un peu. En revanche, je me demande aussi si la compaction elle-même est gratuite
  • Si le résultat est bon, ça me va de payer plus, mais en ce moment j’ai l’impression qu’Anthropic pousse plutôt vers une logique de récompense intermittente qui encourage à continuer de consommer des tokens. La famille Claude est clairement plus amusante que GPT ou Codex, avec plus de personnalité, un meilleur sens du design et une certaine sensibilité esthétique. On a vraiment l’impression de faire du vibe-coding avec, presque comme un jeu. Mais au final, les résultats retombent presque toujours sur les mêmes problèmes : suppression des tests pour les faire passer, multiplication du code dupliqué, mauvaise abstraction, désactivation de la sûreté des types, non-respect des exigences strictes. Ces problèmes ne sont pas réglés dans la 4.7 non plus, et quoi qu’en disent les benchmarks, dans l’usage réel ils restent bien présents. Je ne suis même pas sûr que l’entreprise ait vraiment la volonté de corriger ça

    • J’ai presque exactement le même ressenti. Les outils actuels me semblent surtout utiles comme substitut à Google, pour du scaffolding pénible, de la revue de code, ou de la recherche avancée. Maintenant qu’ils se sont imposés sur le marché des coding LLM, j’ai l’impression qu’ils commencent la vraie monétisation, et je m’attends à voir arriver des modèles avec des gains minimes en performance mais des hausses de prix de 40 % ou plus
    • À mon avis, l’IA ne doit pas juste être lâchée dans la nature, il faut la guider. Si on a les compétences pour bien la piloter, on peut obtenir des résultats de très haute qualité
    • Parmi les critiques ci-dessus, je trouve trop catégorique l’idée qu’Anthropic aurait délibérément choisi une stratégie d’extraction à court terme pour pousser la consommation de tokens. Prétendre connaître la stratégie d’une entreprise vue de l’extérieur me paraît excessif. J’imagine plutôt des scénarios comme des problèmes d’infrastructure ou de capacité qui ont dégradé les performances, un tuning orienté davantage vers ce que voulaient les ingénieurs que vers ce que voulaient les clients, ou encore une prudence accrue pour des raisons de sécurité, comme le suggèrent les messages de sécurité liés à Mythos. Et ces facteurs ne s’excluent pas mutuellement. Moi aussi, je ne trouve pas Opus 4.7 particulièrement impressionnant, mais je ne l’ai pas utilisé depuis très longtemps et je n’ai pas non plus lancé mes propres benchmarks. En plus, ces derniers temps, je demande à Claude des tâches de Bayesian probabilistic modeling beaucoup plus difficiles qu’il y a quelques semaines, donc il est possible que je pousse simplement davantage le modèle dans ses retranchements
  • Cette comparaison donne l’impression de mesurer la longueur des prompts de deux façons avec l’API de comptage de tokens afin d’isoler uniquement le changement de tokenizer. Or un modèle plus intelligent peut aussi répondre plus brièvement, ce qui réduit les tokens de sortie, donc en tenant compte de cela, j’ai du mal à conclure à partir de cette seule comparaison que la 4.7 est réellement moins chère. Au final, elle peut très bien être plus chère ou moins chère, mais ce document seul ne me paraît pas très utile pour juger l’usage réel

    • Pour des données plus proches d’un usage concret, le benchmark d’Artificial Analysis indique qu’Opus 4.6 max a utilisé environ 160 millions de tokens, contre environ 100 millions pour la 4.7 max. Dans le détail des coûts, les coûts d’entrée ont augmenté de 800 dollars, mais les coûts de sortie ont baissé de 1400 dollars. Bien sûr, la mesure dans laquelle la sortie compense l’entrée dépendra énormément du cas d’usage, et j’imagine que plus l’effort est faible, plus l’écart sera réduit
    • Je ne vois pas pourquoi ça ne serait pas utile. Le prix des tokens d’entrée de la 4.7 reste identique, mais il semble clair que le même prompt coûte maintenant environ 30 % plus cher côté entrée
    • Oui. Moi aussi, sur la 4.6, j’ai constaté que ma consommation de tokens avait au contraire baissé à partir du moment où j’ai commencé à mettre chaque session en max effort. La réflexion intermédiaire s’autocorrigeait, ce qui réduisait les tâtonnements et permettait de finir le travail en moins d’étapes. À l’inverse, la 4.7 m’a semblé tourner davantage en rond, même sur des tâches basiques. En revanche, elle me paraît peut-être un peu meilleure pour conserver un long contexte sur la durée
    • Dans l’IA, j’ai l’impression qu’il n’existe jamais de comparaison utile sur laquelle tout le monde puisse tomber d’accord
  • Pour l’instant, je compte continuer à utiliser Opus 4.5 comme modèle principal dans VSCode Copilot. Dans mon workflow, je donne en général des instructions assez détaillées à l’agent, mais la plupart des agents essaient sans cesse d’en faire plus que nécessaire. Parmi ceux que j’ai testés, ce qu’Opus 4.5 faisait le mieux, c’était justement sa tendance à comprendre la portée exacte de ce que je voulais, même à partir de prompts imparfaits, et à ne faire que le strict nécessaire. La 4.6 prenait plus de temps, réfléchissait de façon excessive et élargissait davantage le périmètre des modifications, et les GPT haut de gamme avaient des problèmes similaires. D’autres modèles comme Sonnet étaient moins bons qu’Opus pour deviner mon intention à partir d’instructions moins précises. J’ai donc arrêté les expérimentations et je suis resté sur la 4.5, que je trouvais chère mais rentable. Mais maintenant qu’on dit que la 4.7 va remplacer à la fois la 4.5 et la 4.6 dans VSCode Copilot, avec en plus un modificateur de 7,5x, de mon point de vue ça ressemble à quelque chose de plus lent et plus cher, donc plutôt à une régression

    • Je me demande pourquoi ne pas simplement utiliser Sonnet
    • Quand on dit que la 4.7 remplace à la fois la 4.5 et la 4.6, je me demandais si ça voulait vraiment dire que la 4.5 disparaît. Moi aussi, j’étais installé sur la 4.5, donc si c’est vrai ce serait vraiment dommage
  • J’ai de plus en plus l’impression que croire qu’on pourra remplacer massivement le travail de bureau en se contentant de faire grossir les LLM est une hypothèse naïve. Les mécanismes d’attention ou les réseaux de Hopfield donnent l’impression de ne modéliser qu’une partie du cerveau humain, et toutes les rustines actuelles autour de la mémoire agentique me semblent justement montrer que les transformers SOTA actuels ne suffisent pas à eux seuls. Même si on se limite au texte, j’ai le sentiment que des limites apparaissent, mais je ne fais peut-être que répéter les thèses de Yann LeCun

    • Il est possible que tu ne fasses effectivement que répéter cet argument. La logique du small subset, selon laquelle les transformers ne ressembleraient qu’à une petite partie du cerveau humain, me paraît peu convaincante, autant du point de vue neurobiologique qu’au vu des performances réelles des LLM. Les transformers sont des architectures très générales et très expressives, utilisées non seulement pour les LLM mais aussi pour la vidéo, l’audio, le SLAM, les VLA et bien d’autres domaines. Le fait de ne pas reproduire le cerveau humain à l’identique ne signifie pas qu’on ne puisse pas atteindre une intelligence fonctionnellement équivalente. Le cerveau humain n’est qu’une des implémentations produites par l’évolution. Quant à l’idée de LeCun selon laquelle les LLM ne peuvent pas le faire, elle est continuellement démentie par l’expérience. Même sur des benchmarks conçus pour défavoriser les LLM, comme ARC-AGI-3, je n’ai encore vu aucune famille d’IA qu’on puisse dire meilleure que les LLM
    • J’ai l’impression qu’avec le scaling seul, on touche quasiment au plafond. En revanche, l’efficacité peut encore progresser, et l’outillage ou les harness autour continueront à s’améliorer
    • Même si on se limite au texte, la question demeure. Pourquoi ne sont-ils toujours pas capables d’écrire correctement un roman entier ? Même en abaissant le niveau d’exigence à une novella, j’ai l’impression qu’on reste loin du niveau de Death in Venice, Candide, The Metamorphosis ou Breakfast at Tiffany's. Tout cela figurait pourtant dans le corpus d’entraînement, donc je me demande si le problème est simplement que personne n’a encore dépensé des centaines de milliers de dollars en tokens pour essayer
  • Hier, avec Opus 4.7, j’ai voulu rassembler des bonnes pratiques pour un site web en une seule page, et j’ai dépassé la limite quotidienne en quatre prompts environ. Puis, après encore sept interactions à peu près, j’ai aussi dépassé la limite hebdomadaire. Tout le code HTML/CSS/JS faisait moins de 300 lignes, donc voir le quota d’usage partir aussi vite m’a franchement choqué

    • C’est exactement pour ce genre de chose que je n’ai pas encore essayé Claude. Avec un abonnement entreprise, seule la facture grossit, et je ne pense pas qu’un VP puisse facilement envoyer dès maintenant une annonce de migration à toute l’entreprise. Si les abonnés individuels commencent d’abord à partir, l’usage des data centers pourrait baisser tout en améliorant la rentabilité
    • Je me demande sur quoi le reasoning effort était réglé. À ma connaissance, Max consomme beaucoup plus de tokens actuellement et n’est pas recommandé pour la plupart des cas d’usage. La nouvelle valeur par défaut xhigh consomme aussi davantage que l’ancienne valeur par défaut medium
    • Je me demande de quel forfait il s’agissait. Si c’est Pro, ça me semblerait possible, mais sur le forfait Max, à ce niveau-là, ça me surprendrait un peu
    • Je me demande si c’est bien un abonnement Claude. À ma connaissance, Claude sur abonnement ne fonctionne pas comme ça
  • Le titre me semble devoir être 4.6 to 4.7, et non l’inverse

    • Entièrement d’accord
    • Même pour quelqu’un qui lit de gauche à droite, Opus 4.6 to 4.7 paraît bien plus naturel
  • D’après l’explication d’Artificial Analysis, Opus 4.7 a coûté environ 4 406 dollars pour faire tourner l’Intelligence Index avec Adaptive Reasoning et Max Effort, soit environ 11 % moins cher que les quelque 4 970 dollars de la 4.6. Le score était supérieur de 4 points, et ils expliquent que cette différence vient d’une baisse du nombre de tokens de sortie, même en tenant compte du nouveau tokenizer. En revanche, la remise sur les entrées en cache n’est pas encore incluse dans ce calcul, mais ils ont indiqué qu’elle le serait bientôt

  • De mon point de vue, la qualité des échanges s’est améliorée plus que prévu. Le modèle est plus autocritique, il examine aussi ses propositions de manière plus critique, et ses choix par défaut me paraissent globalement meilleurs. Je n’ai pas autant utilisé de harness variés que certaines autres personnes ici, donc la différence est peut-être moins marquée pour moi, mais j’ai l’impression que la valeur ajoutée pourrait au contraire être plus forte pour les utilisateurs moins préparés. Même sur des tâches de base comme revenir sur un flux récent de reviews ou examiner des discussions produit, la 4.6 était utile mais risquait facilement de devenir un foot-gun, alors que la 4.7 semble plus susceptible de se comporter comme un membre senior de l’équipe