4 points par GN⁺ 2025-08-29 | 1 commentaires | Partager sur WhatsApp
  • Contrairement à une idée largement répandue dans le secteur, le coût de l’inférence IA est plus faible qu’on ne le pense et peut même garantir une forte rentabilité
  • Selon l’analyse, le coût des tokens d’entrée est pratiquement négligeable (environ 0,005 $ par million de tokens), tandis que le coût des tokens de sortie dépasse 3 $ par million, soit un écart d’un facteur 1 000
  • Les abonnements grand public (ex. : ChatGPT Pro à 20 $/mois) affichent une rentabilité de 5 à 6 fois le coût réel de l’inférence, et les offres pour développeurs (Claude Code) de 10 à 20 fois, ce qui traduit une très forte profitabilité
  • Les offres API dégagent des marges de 80 à plus de 95 % par rapport au coût réel, avec une structure de revenus comparable à celle du logiciel
  • Au final, l’inférence n’est pas un « gouffre financier », mais une activité très rentable lorsqu’on exploite efficacement la structure déséquilibrée entre entrée et sortie

Introduction

  • On avance souvent que l’IA, et en particulier l’inférence, engendre des coûts massifs, mais cette analyse adopte un point de vue sceptique et estime qu’un examen économique est nécessaire
    • L’auteur n’a pas d’expérience directe dans l’exploitation de grands modèles frontier, mais s’appuie sur sa compréhension du cloud à très haut débit et de la structure de coûts du bare metal par rapport aux hyperscalers
  • L’analyse relève du calcul de coin de table (napkin math) et se concentre sur les coûts de calcul purs
    • Le coût d’un GPU H100 est fixé à 2 $/heure, même si les grandes entreprises d’IA peuvent en réalité se les procurer à un tarif inférieur

Hypothèses

  • L’analyse se concentre uniquement sur le coût de calcul pur et teste la soutenabilité sans amélioration du modèle, sur la base de l’utilité des modèles actuels
    • Utilisation d’une architecture de type DeepSeek R1 (671B de paramètres au total, 37B actifs), avec l’hypothèse de performances comparables à Claude Sonnet 4 et GPT-5

Environnement de production avec des H100

  • Configuration de production : cluster de 72 GPU H100, pour un coût de 144 $/heure
    • Taille de batch de 32, avec parallélisme tensoriel sur 8 GPU permettant d’exécuter 9 instances du modèle en parallèle
  • Phase de préremplissage (traitement de l’entrée) : sur la base de la bande passante HBM de 3,35 To/s du H100, 45 passes avant par seconde
    • Avec 32 séquences par batch (1 000 tokens en moyenne), cela représente 1,44 million de tokens d’entrée par seconde, soit 46,8 milliards par heure
    • Pour un modèle MoE, le routage des experts peut réduire le débit de 30 à 50 %, mais l’effet reste limité grâce à un parallélisme efficace
  • Phase de décodage (génération de sortie) : génération séquentielle des tokens, avec 1 440 tokens de sortie par seconde, soit 46,7 millions par heure
  • Calcul du coût pur par token
    • Tokens d’entrée : 144 $ ÷ 46,8 milliards = environ 0,003 $ par million de tokens
    • Tokens de sortie : 144 $ ÷ 46,7 millions = environ 3,08 $ par million de tokens
      • Asymétrie : l’écart de coût entre traitement de l’entrée et génération de sortie est d’environ 1 000 fois

Goulots d’étranglement du calcul

  • En général, le goulot d’étranglement est la bande passante mémoire, mais avec des séquences de contexte longues de 128k+ c’est le calcul d’attention qui devient limitant, ce qui augmente les coûts de 2 à 10 fois
    • Claude Code, avec sa limite de 200k tokens, reste dans un régime peu coûteux dominé par la mémoire et évite les scénarios centrés sur du calcul très coûteux
    • La facturation additionnelle sur les longues fenêtres de contexte reflète cette réalité économique

Économie réelle côté utilisateur

  • Offre grand public (ChatGPT Pro à 20 $/mois) : 100 000 tokens par jour (70 % entrée, 30 % sortie), pour un coût réel d’environ 3 $/mois
    • Marge d’OpenAI : 5 à 6 fois
  • Usage développeur (Claude Code Max 5, 100 $/mois) : 2 millions de tokens d’entrée et 30 000 de sortie par jour, pour un coût réel d’environ 4,92 $/mois, soit une marge de 20,3 fois
    • Max 10 (200 $/mois) : 10 millions de tokens d’entrée et 100 000 tokens de sortie par jour, pour un coût réel d’environ 16,89 $/mois, soit une marge de 11,8 fois
    • Les agents de code maximisent la rentabilité grâce à un profil d’usage centré sur l’entrée, donc peu coûteux
  • Marge sur les API : aux tarifs actuels (3 $/15 $ par million de tokens) face à un coût réel (0,01/3), la marge atteint 80 à 95 %

Conclusion

  • L’analyse repose sur plusieurs hypothèses et comporte donc une marge d’erreur, mais même avec un écart de 3x, la rentabilité resterait élevée
    • Le traitement des entrées est peu coûteux, à environ 0,005 $ par million de tokens, tandis que la génération de sortie dépasse 3 $, soit un écart d’un facteur mille
  • Le point central est la structure asymétrique des coûts entre tokens d’entrée et de sortie, et les services qui savent en tirer parti peuvent atteindre une forte rentabilité
    • Charges de travail dominées par l’entrée (assistant de code, analyse documentaire, recherche, etc.) → structure de coût presque gratuite, rentabilité très élevée
    • Charges de travail dominées par la sortie (ex. : génération vidéo) → peu d’entrée mais des millions de tokens en sortie, d’où une structure de coûts défavorable et des prix élevés inévitables
  • L’affirmation selon laquelle « l’inférence IA est trop chère pour être soutenable » ne correspond pas à la structure réelle des coûts. Il pourrait plutôt s’agir d’une stratégie des grands acteurs historiques pour freiner la concurrence. En réalité, la structure des marges est déjà très solide
  • De la même façon que l’exagération passée des coûts du cloud a servi à justifier les surprofits des Big Tech, le débat sur les coûts de l’inférence risque lui aussi d’alimenter un marketing excessif de la peur des coûts
    • Il faut aborder la structure des coûts sur une base factuelle

1 commentaires

 
GN⁺ 2025-08-29
Avis Hacker News
  • Les calculs mathématiques de cet article sont erronés à plusieurs niveaux

    • En particulier, l’hypothèse selon laquelle l’étape de prefill est limitée par la bande passante est fausse

    • Si l’on déroule le MFU calculé par l’auteur, on obtient 13 PFLOPS/s, soit 7 fois les performances maximales du matériel réel, donc un chiffre impossible

    • Les hypothèses de 32 requêtes simultanées, d’une limite à 8 GPU, ou encore que seules les opérations d’attention constituent le goulot d’étranglement, sont toutes incorrectes

    • Il est dommage que, sur HN, les critiques de cet article pointent surtout des détails mineurs au lieu des erreurs fondamentales

    • Si cet article est correct, alors l’affirmation selon laquelle OpenAI ou Anthropic perdraient de l’argent sur l’inférence manque elle aussi de fondement

    • La partie sur le coût des jetons de sortie est elle aussi largement erronée

      • En pratique, il suffit d’un cluster GPU puissant pour décoder à bas coût de grands modèles
      • Par exemple, il y a 4 mois, on était autour de 0,2 dollar par million de jetons de sortie, et c’est devenu encore moins cher depuis grâce aux GPU B200 et à l’optimisation du code
    • Merci de signaler que les calculs sont faux, mais dans ce cas ce serait utile de donner aussi des chiffres exacts afin d’ajuster les attentes

  • J’ai fait plusieurs modélisations, et je pense qu’en fonction de l’amortissement des GPU et de l’optimisation de l’utilisation des ressources, l’inférence peut dégager plus de 50 % de marge

    • En revanche, le résultat change fortement selon qu’on inclut ou non les coûts d’entraînement du modèle

    • Si l’on ne capitalise pas les coûts d’entraînement, la marge est bonne, mais si on les amortit et les inclut, la rentabilité se dégrade brutalement

    • On peut se demander pourquoi exclure l’entraînement

      • Un modèle n’est pas utilisé pendant des années : il faut le réentraîner tous les quelques mois pour rester compétitif
    • Un grand labo d’IA peut dégager de fortes marges, mais ce n’est pas le cas d’une entreprise ordinaire

      • Par exemple, selon les documents publics de l’équipe DeepSeek, on obtient environ 12K tok/s avec vLLM sur 8x H200 SXM
      • Mais pour traiter 100K à 200K tok/s, il faut énormément de GPU, dont la plupart resteront inactifs
      • Des hypothèses comme 100 % d’utilisation, traitement gratuit des entrées ou absence de goulot d’étranglement réseau ne sont donc pas réalistes
    • Même avec un amortissement des GPU sur 5 ans, une baisse du taux d’utilisation due à une perte de part de marché peut être fatale

    • Les coûts d’entraînement sont, selon les normes IFRS/GAAP, des coûts directement attribuables au chiffre d’affaires et finissent donc nécessairement dans le coût des ventes

  • Sam Altman a déclaré : « nous faisons des bénéfices sur l’inférence, et c’est très rentable si l’on exclut uniquement les coûts d’entraînement »

    • Amodei a expliqué quelque chose de similaire : si l’on considère un modèle comme une entreprise à part entière, avec 100 millions de dollars de coûts d’entraînement pour 200 millions de dollars de chiffre d’affaires, alors le modèle unitaire est rentable

    • En revanche, l’entreprise dans son ensemble reste déficitaire parce qu’elle entraîne simultanément la génération suivante de modèles, plus coûteuse

    • Mais dire « rentable si l’on exclut les coûts d’entraînement » est en réalité une formule banale qui pourrait s’appliquer à presque toutes les entreprises, et cela n’a donc pas beaucoup de sens

    • En pratique, OpenAI investit dans des startups et leur fournit des crédits, ce qui crée une circulation d’argent interne et rend difficile l’évaluation de la rentabilité réelle

    • Selon un podcast du NYT, Sam a dit « si l’on ne regarde que l’inférence, nous sommes rentables », mais le COO à côté de lui a eu une réaction ambiguë

      • Autrement dit, il se peut qu’en réalité l’inférence seule ne soit pas encore totalement rentable
  • Si l’inférence est vraiment aussi bon marché que le prétend l’article, on peut se demander pourquoi il n’existe pas davantage de fournisseurs d’API ultra low cost

    • En réalité, la plupart des fournisseurs bon marché ne font tourner que de petits modèles

    • Dans ce cas, pourquoi est-il si difficile d’utiliser à bas prix de grands modèles comme DeepSeek-R1 ?

    • En fait, il existe déjà plusieurs fournisseurs d’API, et certains proposent même DeepSeek-R1 gratuitement

    • Il y a aussi des acteurs comme DeepInfra, et les prix réels sont encore plus bas que ceux estimés dans l’article

    • Mais il existe d’énormes coûts fixes — entraînement du modèle, construction de l’infrastructure, masse salariale, etc. — si bien qu’on ne peut pas expliquer la rentabilité avec le seul coût unitaire de l’inférence

    • Faire tourner soi-même un modèle 600B exige des GPU valant plusieurs dizaines de milliers de dollars, qui resteront pour la plupart inactifs, ce qui est inefficace

      • Il est donc logique que les fournisseurs de modèles mutualisent les GPU dans une infrastructure partagée
  • Du point de vue de quelqu’un qui a de l’expérience en architecture GPU, dans un long contexte, les opérations d’attention croissent bien théoriquement en O(n²)

    • Mais le vrai goulot d’étranglement est le débit mémoire
    • Par exemple, même avec de la HBM à plus de 2 To/s, il est difficile d’atteindre la bande passante requise par cœur, et si l’on tient compte des conflits, le goulot d’étranglement devient des milliers de fois plus sévère
  • L’article base ses calculs sur DeepSeek R1, mais DeepSeek est anormalement efficace, ce qui en fait une mauvaise base pour estimer les coûts d’OpenAI ou d’Anthropic

    • L’efficacité de DeepSeek vient de MoE et de l’attention MLA

      • Mais il est très probable qu’OpenAI ou Google appliquent déjà des optimisations similaires depuis longtemps
      • GPT OSS va jusqu’au fp4, ce qui n’est pas encore le cas de DeepSeek
    • Si DeepSeek a secoué le marché, c’est moins à cause de l’efficacité en inférence qu’à cause de son affirmation d’un coût d’entraînement de 5 millions de dollars

    • En pratique, il est difficile de soutenir que GPT-5 ou Claude 4 soient moins efficaces que DeepSeek

    • Amodei a également dit que DeepSeek n’était qu’une simple partie de la courbe attendue de baisse des coûts

      • Autrement dit, ce n’était pas tant une rupture révolutionnaire que le fait qu’une entreprise chinoise l’ait montré en premier qui était remarquable
  • Le volume quotidien de jetons présenté dans l’article est beaucoup trop faible

    • J’utilise en moyenne 300 à 800 millions de jetons par jour, et mes collègues entre 150 et 600 millions
    • L’article ne tient pas non plus compte du prompt caching, qui réduit le volume d’inférence de 85 à 95 %
    • Il faudrait aussi préciser quelle méthode de quantification est utilisée pour le modèle et le cache KV afin de pouvoir calculer correctement
  • Le prix de ChatGPT Pro est également mal indiqué

    • En réalité, c’est 200 dollars par mois, et Sam Altman a lui-même déjà déclaré que « nous perdons de l’argent sur l’abonnement Pro »

    • Parce que les utilisateurs s’en servent beaucoup plus que prévu

    • Mais récemment, il a aussi dit : « nous sommes rentables sur l’inférence »

      • Cela dit, comme il s’agit d’une entreprise non cotée, il est difficile de savoir quelle déclaration est la plus proche de la vérité
    • Personnellement, je ne fais pas confiance aux déclarations de Sam

      • J’ai l’impression que cela relève davantage d’un message marketing du type « notre produit a beaucoup de valeur »
    • En réalité, il est très probable que les 10 % d’utilisateurs les plus intensifs concentrent l’essentiel de l’usage selon une distribution en loi de puissance

      • L’abonnement Pro pourrait donc être structurellement déficitaire
  • Selon des rapports récents, Anthropic aurait une marge de 60 %, et OpenAI, utilisateurs gratuits compris, une marge de 50 %

    • Le speculative decoding, le caching, etc. réduisent encore les coûts

    • L’hypothèse de 37 milliards de paramètres retenue dans l’article ne correspond pas non plus à la taille réelle du modèle

    • Mais les marges à elles seules ne suffisent pas à donner une vision complète

      • Il est très probable qu’Azure ou AWS accordent des rabais massifs
  • Sam Altman a répété dans plusieurs interviews : « si l’on exclut uniquement les coûts d’entraînement, nous sommes rentables »

    • Certains s’appuient là-dessus pour dire que l’affirmation selon laquelle « OpenAI perd de l’argent à chaque requête » est fausse
    • Mais si l’entraînement était gratuit, tout le monde pourrait le faire : c’est donc une hypothèse sans réelle portée
    • Dario Amodei a lui aussi expliqué qu’au niveau du modèle pris isolément, on finit bien par être rentable
    • Cela dit, les déclarations de Sam visent peut-être surtout à rassurer les investisseurs, et la rentabilité réelle reste opaque