1 points par GN⁺ 2026-03-11 | 1 commentaires | Partager sur WhatsApp
  • Le calcul à 5 000 dollars du forfait Claude Code Max cité par Forbes repose sur le prix de détail de l’API, et non sur le coût réel du compute
  • En comparant les prix des modèles Qwen 3.5 397B et Kimi K2.5 sur OpenRouter, on constate que des modèles d’ampleur comparable sont exploités à environ un dixième des tarifs de l’API d’Anthropic
  • Sur cette base, le coût réel estimé pour Anthropic serait d’environ 500 dollars, soit seulement une perte mensuelle d’environ 300 dollars pour certains utilisateurs intensifs
  • La plupart des utilisateurs n’atteignent pas leur limite de tokens et, sur la base de l’usage moyen, le modèle est à l’équilibre ou rentable
  • L’idée que le coût de l’inférence IA serait excessif est erronée ; elle sert à justifier les marges élevées des grandes entreprises d’IA sur leurs API

Vérification de l’affirmation des 5 000 dollars de Forbes

  • Forbes a indiqué dans un article sur Cursor que le forfait à 200 dollars d’Anthropic permettait jusqu’à 5 000 dollars d’usage compute
    • La citation est présentée comme provenant de « quelqu’un ayant vu une analyse des schémas d’utilisation du compute de l’entreprise »
  • Ce chiffre est calculé sur la base du prix de détail de l’API, et ne correspond donc pas au coût réel du compute
  • Les tarifs de l’API Opus 4.6 d’Anthropic sont fixés à 5 dollars par million de tokens en entrée et 25 dollars par million de tokens en sortie
    • À ce tarif, les utilisateurs intensifs peuvent effectivement atteindre l’équivalent de 5 000 dollars d’utilisation API par mois

Estimation du coût réel du compute

  • Sur OpenRouter, le modèle Qwen 3.5 397B-A17B, de taille comparable, est proposé autour de 0,39 dollar par million de tokens en entrée et 2,34 dollars en sortie
    • Le modèle Kimi K2.5 est encore moins cher, à 0,45 dollar en entrée et 2,25 dollars en sortie
  • Cela correspond à un niveau environ 10 fois moins cher que les tarifs API d’Anthropic
  • Le coût des tokens mis en cache présente un écart similaire
    • Par exemple : chez DeepInfra, la lecture de cache pour Kimi K2.5 coûte 0,07 dollar/MTok, contre 0,50 dollar/MTok chez Anthropic
  • On peut donc estimer que le coût réel du compute représente environ 10 % du prix facturé par l’API

Coût réel des utilisateurs de Claude Code Max

  • Pour un utilisateur consommant l’équivalent de 5 000 dollars de tokens au tarif API, le coût réel serait d’environ 500 dollars
    • Dans ce cas, Anthropic perdrait environ 300 dollars par mois
  • Cependant, Anthropic indique que moins de 5 % des utilisateurs atteignent leur limite de tokens
    • L’utilisateur moyen consomme généralement moins de 50 % de son quota de tokens
  • D’après les données /cost d’Anthropic, un utilisateur moyen représente environ 6 dollars d’usage API par jour, et 90 % restent sous les 12 dollars
    • En coût réel, cela représente environ 18 dollars par mois, ce qui permet de préserver la rentabilité face à des abonnements de 20 à 200 dollars

Différence de coût avec Cursor

  • Le chiffre des 5 000 dollars provient d’une analyse interne de Cursor
    • Cursor doit utiliser Opus 4.6 d’Anthropic au tarif API de détail
  • Du point de vue de Cursor, un power user peut donc coûter jusqu’à 5 000 dollars par mois
    • En revanche, le coût réel pour Anthropic serait plutôt d’environ 500 dollars
  • Cursor rencontre des difficultés du fait que les développeurs préfèrent les modèles d’Anthropic

Structure de revenus d’Anthropic et malentendu

  • Anthropic reste globalement déficitaire en raison des coûts d’entraînement, des salaires et des investissements massifs en compute
  • En revanche, le coût unitaire de l’inférence par token pourrait être fortement rentable
  • L’idée selon laquelle « l’inférence IA est une activité déficitaire » sert à justifier des marges excessives sur les prix des API et freine la concurrence
  • Pour comprendre l’économie réelle de l’inférence, il est plus pertinent de se référer aux prix publics des modèles sur OpenRouter
    • Ceux-ci ne représentent qu’une fraction du coût facturé par les grandes entreprises d’IA sur leurs API

1 commentaires

 
GN⁺ 2026-03-11
Avis sur Hacker News
  • Comparer Qwen 3.5 397B-A17B aux modèles d’Anthropic est une comparaison absurde
    Les modèles chinois comme Qwen ou DeepSeek sont réputés être plus de 10 fois plus efficaces qu’Anthropic
    C’est aussi pour cela que l’écart entre les prix d’OpenRouter et les tarifs officiels n’est pas très grand. En plus, on ne sait pas clairement quelles techniques de quantization utilisent les fournisseurs sur OpenRouter. En pratique, ils sont peut-être même 100 fois plus efficaces
    Bien sûr, tous les utilisateurs ne poussent pas leur forfait à son maximum, donc la perte n’est pas de 5 000 dollars par utilisateur

    • C’est un raisonnement circulaire. Si l’on pense que les modèles chinois sont 10 fois plus efficaces, c’est seulement parce qu’ils sont 10 fois moins chers
      Quand on regarde les chiffres de t/s d’Opus 4.5 sur Amazon Bedrock et ceux des modèles chinois, on est à un niveau comparable, donc le nombre de paramètres actifs réel est sans doute similaire
      Sur OpenRouter, on peut aussi choisir directement des fournisseurs en BF16 ou Q8
    • D’accord, mais il est probable qu’Opus 4.6 soit un modèle 10 fois plus gros. GPT-4 est déjà un modèle à 1,6T et Llama 4 est aussi bien plus grand
      Les entreprises chinoises manquent de GPU, mais elles ont beaucoup innové sur l’efficacité de l’inférence. Liang, le CEO de DeepSeek, figure aussi parmi les auteurs de papiers sur le sujet
    • Comparer un modèle open source comme Qwen à Anthropic n’a pas vraiment de sens
      Anthropic n’a jamais publié l’architecture du modèle ni le nombre de paramètres
      La plupart des modèles open source distillent d’autres modèles ou utilisent du MoE pour réduire les coûts de calcul
      Il est difficile de faire confiance au billet de blog qui prend Qwen comme référence de comparaison
    • Opus a peut-être obtenu des coûts plus bas grâce aux TPU
    • Les informations de quantization sont affichées dans la section des fournisseurs sur OpenRouter
  • D’après l’article d’origine, Cursor estimait l’an dernier qu’un abonnement Claude Code à 200 dollars par mois utilisait jusqu’à 2 000 dollars de calcul
    Aujourd’hui, cette subvention serait encore plus importante, au point que le même forfait pourrait consommer environ 5 000 dollars de calcul

    • Certains ont réagi en disant : « c’est une information qui change tout »
  • Beaucoup de gens pensent qu’OpenAI et Anthropic vendent les tokens à perte, mais il n’y a en réalité presque aucune preuve
    Ce mème s’est propagé à cause d’un article inexact de Forbes. Cet article ne comprend même pas la différence entre le coût de l’API et le coût du calcul

    • Mais il est aussi difficile d’affirmer avec certitude qu’il n’existe aucune preuve de vente à perte
      Quand on voit qu’Anthropic bloque les usages hors de CC et que la limite de dépenses API est de 5 000 dollars, il est possible que la rentabilité soit faible
    • Certains avancent aussi qu’« une entreprise qui ne vend que des tokens ne peut pas ne pas perdre d’argent »
      Les coûts de recherche, d’entraînement, d’infrastructure et de personnel devraient tous être inclus dans le coût de génération des tokens
      Les prix bas des modèles open weight relèvent d’un dumping destiné à gagner des parts de marché, et le coût réel est plus élevé
      Au final, cette structure ne pourra pas durer très longtemps
    • Plus que de savoir si Anthropic perd de l’argent sur chaque token, la vraie question est le coût de l’entraînement
      Si le modèle n’est pas continuellement entraîné, la valeur des tokens diminue
    • À titre de référence, les documents liés sont ici
  • Si notre équipe utilisait Claude Code via l’API, cela nous coûterait 200 000 dollars par mois, mais en pratique nous ne payons que 1 400 dollars par mois avec l’abonnement Max
    Cela revient à environ 50 000 dollars par utilisateur, mais au vu du nombre de tokens JSON, la plupart des requêtes semblent mises en cache, donc le coût réel doit être bien plus faible

    • Je me demande comment vous répartissez le travail de façon aussi efficace. J’utilise aussi beaucoup Claude, mais j’atteins vite les limites
    • Gemini CLI affiche le taux d’économie grâce au cache par session, et il tourne généralement autour de 90 %
    • Moi aussi, je fais tourner plusieurs agents Claude, et 85 % des tokens d’entrée proviennent de lectures de cache
      Le coût réel doit plutôt être de l’ordre de 25 000 à 30 000 dollars. L’estimation de 5 000 dollars de Forbes est exagérée
    • Avec npx ccusage, on peut consulter les logs locaux et calculer le coût sur la base des tarifs API
    • En revanche, je me demande si utiliser le forfait Max pour un usage en entreprise n’est pas contraire aux conditions d’utilisation
  • Si la capacité de calcul d’Anthropic est complètement saturée, les power users de Claude Code peuvent engendrer un coût d’opportunité de 5 000 dollars par utilisateur
    Mais ce type de comparaison est aussi mal adapté que de comparer le nombre d’engrenages d’une Rolex et d’une montre sans marque

    • Un coût d’opportunité n’est pas un coût réel. La vraie question est de savoir si Anthropic est saturé au point de ne plus pouvoir vendre d’abonnements
    • Plus une ferme de GPU est utilisée à plein, plus l’effet de batching fait au contraire baisser le coût unitaire
    • L’expression « coût d’opportunité » est souvent utilisée aussi dans l’industrie du divertissement, mais en pratique, la réalité est plutôt une baisse de la consommation
      Ce sera probablement pareil pour Anthropic : les utilisateurs risquent de s’interroger sur une qualité incertaine ou de passer à une facturation basée sur l’API
    • Certains plaisantent aussi en disant espérer que leur situation, où ils peuvent utiliser largement Opus avec un abonnement à 100 dollars, dure encore
  • Les coûts d’inférence et les marges diffèrent énormément entre les modèles open weight et les grands fournisseurs cloud
    C’est comparable à l’écart entre les coûts de R&D dans l’industrie pharmaceutique et le coût de production des génériques
    La marge d’inférence d’OpenAI est estimée à environ 70 %, celle d’Anthropic entre 40 % et 90 %
    Articles liés : Phemex, SaaStr, The Information, Investing.com

    • Certains estiment qu’il ne faut pas utiliser le mot « profit » trop facilement
      D’un point de vue comptable, il est possible que les revenus par modèle compensent déjà les coûts d’entraînement
      En revanche, du point de vue des flux de trésorerie, l’entreprise n’est toujours pas cashflow positive
      Si l’on ne comprend pas cette différence, on risque de sous-estimer l’ensemble de l’industrie de l’IA
  • Il n’y a pas de certitude sur la taille du modèle d’Opus 4.6
    On suppose qu’il est bien plus grand que Qwen397B

    • Vu que Musk a dit que Grok comptait des milliers de milliards de paramètres, il est possible qu’Opus soit du même ordre
      Anthropic gagne probablement de l’argent via l’API, mais sans doute pas avec 90 % de marge
    • Sur OpenRouter, DeepSeek v3.2 (685B/37B active) est tarifé à 0,26/0,40 $, et Kimi K2.5 (1T/32B active) à 0,45/2,25 $
    • Un spécialiste estimerait qu’Opus se situe autour de 1 à 2 billions de paramètres
  • Le cache est presque gratuit, mais en réalité pas totalement
    Si l’on retire le coût des tokens en cache, l’usage réel en calcul d’un abonnement à 200 dollars retombe autour de 800 dollars
    L’essentiel de la capacité de calcul est probablement inactive

    • Mais le cache occupe en permanence de la RAM, donc ce n’est pas totalement gratuit
      Si le cache n’est pas touché, cela génère un coût d’opportunité
    • Grâce au cache, il devient possible de vendre l’inférence à davantage d’utilisateurs à un prix premium, donc c’est en pratique un outil de maximisation des revenus
    • Si la capacité n’est pas inactive, ces ressources pourraient aussi être utilisées pour l’entraînement du modèle ou des expériences de recherche
  • Cursor doit utiliser Opus 4.6 au tarif API retail d’Anthropic, donc cela peut coûter 5 000 dollars par mois et par power user
    En revanche, le coût réel pour Anthropic serait probablement plutôt autour de 500 dollars
    J’ai récemment écouté la stratégie d’agents cloud de Cursor dans le podcast Swix, et les barrières à l’entrée diminuent

  • L’abonnement Claude se rapproche du concept de spot instances
    L’API est un service on-demand, avec priorité sur l’API
    Le calcul restant est attribué aux abonnés, et en cas de manque de capacité, le trafic est redirigé vers des modèles quantifiés moins chers
    Ce type d’abonnement permet d’exploiter les ressources inactives, et contribue aussi à améliorer la qualité de l’entraînement grâce à des workflows prévisibles
    J’ai utilisé Qwen Code, Codex et Claude : Codex était deux fois meilleur que Qwen, et Claude deux fois meilleur que Codex
    Donc je m’attends à ce que Claude Opus coûte 4 à 5 fois plus cher que Qwen Code

    • L’affirmation selon laquelle « Claude est deux fois meilleur que Codex » n’est plus vraie aujourd’hui
    • La partie disant qu’en cas de manque de capacité, le trafic est routé vers des modèles moins chers n’a jamais été annoncée officiellement