OpenAI et Anthropic perdent-ils vraiment de l’argent sur l’inférence ?
(martinalderson.com)- Contrairement à une idée largement répandue dans le secteur, le coût de l’inférence IA est plus faible qu’on ne le pense et peut même garantir une forte rentabilité
- Selon l’analyse, le coût des tokens d’entrée est pratiquement négligeable (environ 0,005 $ par million de tokens), tandis que le coût des tokens de sortie dépasse 3 $ par million, soit un écart d’un facteur 1 000
- Les abonnements grand public (ex. : ChatGPT Pro à 20 $/mois) affichent une rentabilité de 5 à 6 fois le coût réel de l’inférence, et les offres pour développeurs (Claude Code) de 10 à 20 fois, ce qui traduit une très forte profitabilité
- Les offres API dégagent des marges de 80 à plus de 95 % par rapport au coût réel, avec une structure de revenus comparable à celle du logiciel
- Au final, l’inférence n’est pas un « gouffre financier », mais une activité très rentable lorsqu’on exploite efficacement la structure déséquilibrée entre entrée et sortie
Introduction
- On avance souvent que l’IA, et en particulier l’inférence, engendre des coûts massifs, mais cette analyse adopte un point de vue sceptique et estime qu’un examen économique est nécessaire
- L’auteur n’a pas d’expérience directe dans l’exploitation de grands modèles frontier, mais s’appuie sur sa compréhension du cloud à très haut débit et de la structure de coûts du bare metal par rapport aux hyperscalers
- L’analyse relève du calcul de coin de table (napkin math) et se concentre sur les coûts de calcul purs
- Le coût d’un GPU H100 est fixé à 2 $/heure, même si les grandes entreprises d’IA peuvent en réalité se les procurer à un tarif inférieur
Hypothèses
- L’analyse se concentre uniquement sur le coût de calcul pur et teste la soutenabilité sans amélioration du modèle, sur la base de l’utilité des modèles actuels
- Utilisation d’une architecture de type DeepSeek R1 (671B de paramètres au total, 37B actifs), avec l’hypothèse de performances comparables à Claude Sonnet 4 et GPT-5
Environnement de production avec des H100
- Configuration de production : cluster de 72 GPU H100, pour un coût de 144 $/heure
- Taille de batch de 32, avec parallélisme tensoriel sur 8 GPU permettant d’exécuter 9 instances du modèle en parallèle
- Phase de préremplissage (traitement de l’entrée) : sur la base de la bande passante HBM de 3,35 To/s du H100, 45 passes avant par seconde
- Avec 32 séquences par batch (1 000 tokens en moyenne), cela représente 1,44 million de tokens d’entrée par seconde, soit 46,8 milliards par heure
- Pour un modèle MoE, le routage des experts peut réduire le débit de 30 à 50 %, mais l’effet reste limité grâce à un parallélisme efficace
- Phase de décodage (génération de sortie) : génération séquentielle des tokens, avec 1 440 tokens de sortie par seconde, soit 46,7 millions par heure
- Calcul du coût pur par token
- Tokens d’entrée : 144 $ ÷ 46,8 milliards = environ 0,003 $ par million de tokens
- Tokens de sortie : 144 $ ÷ 46,7 millions = environ 3,08 $ par million de tokens
- Asymétrie : l’écart de coût entre traitement de l’entrée et génération de sortie est d’environ 1 000 fois
Goulots d’étranglement du calcul
- En général, le goulot d’étranglement est la bande passante mémoire, mais avec des séquences de contexte longues de 128k+ c’est le calcul d’attention qui devient limitant, ce qui augmente les coûts de 2 à 10 fois
- Claude Code, avec sa limite de 200k tokens, reste dans un régime peu coûteux dominé par la mémoire et évite les scénarios centrés sur du calcul très coûteux
- La facturation additionnelle sur les longues fenêtres de contexte reflète cette réalité économique
Économie réelle côté utilisateur
- Offre grand public (ChatGPT Pro à 20 $/mois) : 100 000 tokens par jour (70 % entrée, 30 % sortie), pour un coût réel d’environ 3 $/mois
- Marge d’OpenAI : 5 à 6 fois
- Usage développeur (Claude Code Max 5, 100 $/mois) : 2 millions de tokens d’entrée et 30 000 de sortie par jour, pour un coût réel d’environ 4,92 $/mois, soit une marge de 20,3 fois
- Max 10 (200 $/mois) : 10 millions de tokens d’entrée et 100 000 tokens de sortie par jour, pour un coût réel d’environ 16,89 $/mois, soit une marge de 11,8 fois
- Les agents de code maximisent la rentabilité grâce à un profil d’usage centré sur l’entrée, donc peu coûteux
- Marge sur les API : aux tarifs actuels (3 $/15 $ par million de tokens) face à un coût réel (0,01/3), la marge atteint 80 à 95 %
Conclusion
- L’analyse repose sur plusieurs hypothèses et comporte donc une marge d’erreur, mais même avec un écart de 3x, la rentabilité resterait élevée
- Le traitement des entrées est peu coûteux, à environ 0,005 $ par million de tokens, tandis que la génération de sortie dépasse 3 $, soit un écart d’un facteur mille
- Le point central est la structure asymétrique des coûts entre tokens d’entrée et de sortie, et les services qui savent en tirer parti peuvent atteindre une forte rentabilité
- Charges de travail dominées par l’entrée (assistant de code, analyse documentaire, recherche, etc.) → structure de coût presque gratuite, rentabilité très élevée
- Charges de travail dominées par la sortie (ex. : génération vidéo) → peu d’entrée mais des millions de tokens en sortie, d’où une structure de coûts défavorable et des prix élevés inévitables
- L’affirmation selon laquelle « l’inférence IA est trop chère pour être soutenable » ne correspond pas à la structure réelle des coûts. Il pourrait plutôt s’agir d’une stratégie des grands acteurs historiques pour freiner la concurrence. En réalité, la structure des marges est déjà très solide
- De la même façon que l’exagération passée des coûts du cloud a servi à justifier les surprofits des Big Tech, le débat sur les coûts de l’inférence risque lui aussi d’alimenter un marketing excessif de la peur des coûts
- Il faut aborder la structure des coûts sur une base factuelle
1 commentaires
Avis Hacker News
Les calculs mathématiques de cet article sont erronés à plusieurs niveaux
En particulier, l’hypothèse selon laquelle l’étape de prefill est limitée par la bande passante est fausse
Si l’on déroule le MFU calculé par l’auteur, on obtient 13 PFLOPS/s, soit 7 fois les performances maximales du matériel réel, donc un chiffre impossible
Les hypothèses de 32 requêtes simultanées, d’une limite à 8 GPU, ou encore que seules les opérations d’attention constituent le goulot d’étranglement, sont toutes incorrectes
Il est dommage que, sur HN, les critiques de cet article pointent surtout des détails mineurs au lieu des erreurs fondamentales
Si cet article est correct, alors l’affirmation selon laquelle OpenAI ou Anthropic perdraient de l’argent sur l’inférence manque elle aussi de fondement
La partie sur le coût des jetons de sortie est elle aussi largement erronée
Merci de signaler que les calculs sont faux, mais dans ce cas ce serait utile de donner aussi des chiffres exacts afin d’ajuster les attentes
J’ai fait plusieurs modélisations, et je pense qu’en fonction de l’amortissement des GPU et de l’optimisation de l’utilisation des ressources, l’inférence peut dégager plus de 50 % de marge
En revanche, le résultat change fortement selon qu’on inclut ou non les coûts d’entraînement du modèle
Si l’on ne capitalise pas les coûts d’entraînement, la marge est bonne, mais si on les amortit et les inclut, la rentabilité se dégrade brutalement
On peut se demander pourquoi exclure l’entraînement
Un grand labo d’IA peut dégager de fortes marges, mais ce n’est pas le cas d’une entreprise ordinaire
Même avec un amortissement des GPU sur 5 ans, une baisse du taux d’utilisation due à une perte de part de marché peut être fatale
Les coûts d’entraînement sont, selon les normes IFRS/GAAP, des coûts directement attribuables au chiffre d’affaires et finissent donc nécessairement dans le coût des ventes
Sam Altman a déclaré : « nous faisons des bénéfices sur l’inférence, et c’est très rentable si l’on exclut uniquement les coûts d’entraînement »
Amodei a expliqué quelque chose de similaire : si l’on considère un modèle comme une entreprise à part entière, avec 100 millions de dollars de coûts d’entraînement pour 200 millions de dollars de chiffre d’affaires, alors le modèle unitaire est rentable
En revanche, l’entreprise dans son ensemble reste déficitaire parce qu’elle entraîne simultanément la génération suivante de modèles, plus coûteuse
Mais dire « rentable si l’on exclut les coûts d’entraînement » est en réalité une formule banale qui pourrait s’appliquer à presque toutes les entreprises, et cela n’a donc pas beaucoup de sens
En pratique, OpenAI investit dans des startups et leur fournit des crédits, ce qui crée une circulation d’argent interne et rend difficile l’évaluation de la rentabilité réelle
Selon un podcast du NYT, Sam a dit « si l’on ne regarde que l’inférence, nous sommes rentables », mais le COO à côté de lui a eu une réaction ambiguë
Si l’inférence est vraiment aussi bon marché que le prétend l’article, on peut se demander pourquoi il n’existe pas davantage de fournisseurs d’API ultra low cost
En réalité, la plupart des fournisseurs bon marché ne font tourner que de petits modèles
Dans ce cas, pourquoi est-il si difficile d’utiliser à bas prix de grands modèles comme DeepSeek-R1 ?
En fait, il existe déjà plusieurs fournisseurs d’API, et certains proposent même DeepSeek-R1 gratuitement
Il y a aussi des acteurs comme DeepInfra, et les prix réels sont encore plus bas que ceux estimés dans l’article
Mais il existe d’énormes coûts fixes — entraînement du modèle, construction de l’infrastructure, masse salariale, etc. — si bien qu’on ne peut pas expliquer la rentabilité avec le seul coût unitaire de l’inférence
Faire tourner soi-même un modèle 600B exige des GPU valant plusieurs dizaines de milliers de dollars, qui resteront pour la plupart inactifs, ce qui est inefficace
Du point de vue de quelqu’un qui a de l’expérience en architecture GPU, dans un long contexte, les opérations d’attention croissent bien théoriquement en O(n²)
L’article base ses calculs sur DeepSeek R1, mais DeepSeek est anormalement efficace, ce qui en fait une mauvaise base pour estimer les coûts d’OpenAI ou d’Anthropic
L’efficacité de DeepSeek vient de MoE et de l’attention MLA
Si DeepSeek a secoué le marché, c’est moins à cause de l’efficacité en inférence qu’à cause de son affirmation d’un coût d’entraînement de 5 millions de dollars
En pratique, il est difficile de soutenir que GPT-5 ou Claude 4 soient moins efficaces que DeepSeek
Amodei a également dit que DeepSeek n’était qu’une simple partie de la courbe attendue de baisse des coûts
Le volume quotidien de jetons présenté dans l’article est beaucoup trop faible
Le prix de ChatGPT Pro est également mal indiqué
En réalité, c’est 200 dollars par mois, et Sam Altman a lui-même déjà déclaré que « nous perdons de l’argent sur l’abonnement Pro »
Parce que les utilisateurs s’en servent beaucoup plus que prévu
Mais récemment, il a aussi dit : « nous sommes rentables sur l’inférence »
Personnellement, je ne fais pas confiance aux déclarations de Sam
En réalité, il est très probable que les 10 % d’utilisateurs les plus intensifs concentrent l’essentiel de l’usage selon une distribution en loi de puissance
Selon des rapports récents, Anthropic aurait une marge de 60 %, et OpenAI, utilisateurs gratuits compris, une marge de 50 %
Le speculative decoding, le caching, etc. réduisent encore les coûts
L’hypothèse de 37 milliards de paramètres retenue dans l’article ne correspond pas non plus à la taille réelle du modèle
Mais les marges à elles seules ne suffisent pas à donner une vision complète
Sam Altman a répété dans plusieurs interviews : « si l’on exclut uniquement les coûts d’entraînement, nous sommes rentables »