OpenAI et Anthropic perdent-ils vraiment de l’argent sur l’inférence ?

(martinalderson.com)

4 points par GN⁺ 2025-08-29 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Contrairement à une idée largement répandue dans le secteur, le coût de l’inférence IA est plus faible qu’on ne le pense et peut même garantir une forte rentabilité
Selon l’analyse, le coût des tokens d’entrée est pratiquement négligeable (environ 0,005 $ par million de tokens), tandis que le coût des tokens de sortie dépasse 3 $ par million, soit un écart d’un facteur 1 000
Les abonnements grand public (ex. : ChatGPT Pro à 20 $/mois) affichent une rentabilité de 5 à 6 fois le coût réel de l’inférence, et les offres pour développeurs (Claude Code) de 10 à 20 fois, ce qui traduit une très forte profitabilité
Les offres API dégagent des marges de 80 à plus de 95 % par rapport au coût réel, avec une structure de revenus comparable à celle du logiciel
Au final, l’inférence n’est pas un « gouffre financier », mais une activité très rentable lorsqu’on exploite efficacement la structure déséquilibrée entre entrée et sortie

Introduction

On avance souvent que l’IA, et en particulier l’inférence, engendre des coûts massifs, mais cette analyse adopte un point de vue sceptique et estime qu’un examen économique est nécessaire
- L’auteur n’a pas d’expérience directe dans l’exploitation de grands modèles frontier, mais s’appuie sur sa compréhension du cloud à très haut débit et de la structure de coûts du bare metal par rapport aux hyperscalers
L’analyse relève du calcul de coin de table (napkin math) et se concentre sur les coûts de calcul purs
- Le coût d’un GPU H100 est fixé à 2 $/heure, même si les grandes entreprises d’IA peuvent en réalité se les procurer à un tarif inférieur

Hypothèses

L’analyse se concentre uniquement sur le coût de calcul pur et teste la soutenabilité sans amélioration du modèle, sur la base de l’utilité des modèles actuels
- Utilisation d’une architecture de type DeepSeek R1 (671B de paramètres au total, 37B actifs), avec l’hypothèse de performances comparables à Claude Sonnet 4 et GPT-5

Environnement de production avec des H100

Configuration de production : cluster de 72 GPU H100, pour un coût de 144 $/heure
- Taille de batch de 32, avec parallélisme tensoriel sur 8 GPU permettant d’exécuter 9 instances du modèle en parallèle
Phase de préremplissage (traitement de l’entrée) : sur la base de la bande passante HBM de 3,35 To/s du H100, 45 passes avant par seconde
- Avec 32 séquences par batch (1 000 tokens en moyenne), cela représente 1,44 million de tokens d’entrée par seconde, soit 46,8 milliards par heure
- Pour un modèle MoE, le routage des experts peut réduire le débit de 30 à 50 %, mais l’effet reste limité grâce à un parallélisme efficace
Phase de décodage (génération de sortie) : génération séquentielle des tokens, avec 1 440 tokens de sortie par seconde, soit 46,7 millions par heure
Calcul du coût pur par token
- Tokens d’entrée : 144 $ ÷ 46,8 milliards = environ 0,003 $ par million de tokens
- Tokens de sortie : 144 $ ÷ 46,7 millions = environ 3,08 $ par million de tokens
  - Asymétrie : l’écart de coût entre traitement de l’entrée et génération de sortie est d’environ 1 000 fois

Goulots d’étranglement du calcul

En général, le goulot d’étranglement est la bande passante mémoire, mais avec des séquences de contexte longues de 128k+ c’est le calcul d’attention qui devient limitant, ce qui augmente les coûts de 2 à 10 fois
- Claude Code, avec sa limite de 200k tokens, reste dans un régime peu coûteux dominé par la mémoire et évite les scénarios centrés sur du calcul très coûteux
- La facturation additionnelle sur les longues fenêtres de contexte reflète cette réalité économique

Économie réelle côté utilisateur

Offre grand public (ChatGPT Pro à 20 $/mois) : 100 000 tokens par jour (70 % entrée, 30 % sortie), pour un coût réel d’environ 3 $/mois
- Marge d’OpenAI : 5 à 6 fois
Usage développeur (Claude Code Max 5, 100 $/mois) : 2 millions de tokens d’entrée et 30 000 de sortie par jour, pour un coût réel d’environ 4,92 $/mois, soit une marge de 20,3 fois
- Max 10 (200 $/mois) : 10 millions de tokens d’entrée et 100 000 tokens de sortie par jour, pour un coût réel d’environ 16,89 $/mois, soit une marge de 11,8 fois
- Les agents de code maximisent la rentabilité grâce à un profil d’usage centré sur l’entrée, donc peu coûteux
Marge sur les API : aux tarifs actuels (3 $/15 $ par million de tokens) face à un coût réel (0,01/3), la marge atteint 80 à 95 %

Conclusion

L’analyse repose sur plusieurs hypothèses et comporte donc une marge d’erreur, mais même avec un écart de 3x, la rentabilité resterait élevée
- Le traitement des entrées est peu coûteux, à environ 0,005 $ par million de tokens, tandis que la génération de sortie dépasse 3 $, soit un écart d’un facteur mille
Le point central est la structure asymétrique des coûts entre tokens d’entrée et de sortie, et les services qui savent en tirer parti peuvent atteindre une forte rentabilité
- Charges de travail dominées par l’entrée (assistant de code, analyse documentaire, recherche, etc.) → structure de coût presque gratuite, rentabilité très élevée
- Charges de travail dominées par la sortie (ex. : génération vidéo) → peu d’entrée mais des millions de tokens en sortie, d’où une structure de coûts défavorable et des prix élevés inévitables
L’affirmation selon laquelle « l’inférence IA est trop chère pour être soutenable » ne correspond pas à la structure réelle des coûts. Il pourrait plutôt s’agir d’une stratégie des grands acteurs historiques pour freiner la concurrence. En réalité, la structure des marges est déjà très solide
De la même façon que l’exagération passée des coûts du cloud a servi à justifier les surprofits des Big Tech, le débat sur les coûts de l’inférence risque lui aussi d’alimenter un marketing excessif de la peur des coûts
- Il faut aborder la structure des coûts sur une base factuelle

OpenAI et Anthropic perdent-ils vraiment de l’argent sur l’inférence ?

Introduction

Hypothèses

Environnement de production avec des H100

Goulots d’étranglement du calcul

Économie réelle côté utilisateur

Conclusion

À lire aussi

Aucun commentaire pour le moment.