- Contrairement à une idée largement répandue dans le secteur, le coût de l’inférence IA est plus faible qu’on ne le pense et peut même garantir une forte rentabilité
- Selon l’analyse, le coût des tokens d’entrée est pratiquement négligeable (environ 0,005 $ par million de tokens), tandis que le coût des tokens de sortie dépasse 3 $ par million, soit un écart d’un facteur 1 000
- Les abonnements grand public (ex. : ChatGPT Pro à 20 $/mois) affichent une rentabilité de 5 à 6 fois le coût réel de l’inférence, et les offres pour développeurs (Claude Code) de 10 à 20 fois, ce qui traduit une très forte profitabilité
- Les offres API dégagent des marges de 80 à plus de 95 % par rapport au coût réel, avec une structure de revenus comparable à celle du logiciel
- Au final, l’inférence n’est pas un « gouffre financier », mais une activité très rentable lorsqu’on exploite efficacement la structure déséquilibrée entre entrée et sortie
Introduction
- On avance souvent que l’IA, et en particulier l’inférence, engendre des coûts massifs, mais cette analyse adopte un point de vue sceptique et estime qu’un examen économique est nécessaire
- L’auteur n’a pas d’expérience directe dans l’exploitation de grands modèles frontier, mais s’appuie sur sa compréhension du cloud à très haut débit et de la structure de coûts du bare metal par rapport aux hyperscalers
- L’analyse relève du calcul de coin de table (napkin math) et se concentre sur les coûts de calcul purs
- Le coût d’un GPU H100 est fixé à 2 $/heure, même si les grandes entreprises d’IA peuvent en réalité se les procurer à un tarif inférieur
Hypothèses
- L’analyse se concentre uniquement sur le coût de calcul pur et teste la soutenabilité sans amélioration du modèle, sur la base de l’utilité des modèles actuels
- Utilisation d’une architecture de type DeepSeek R1 (671B de paramètres au total, 37B actifs), avec l’hypothèse de performances comparables à Claude Sonnet 4 et GPT-5
Environnement de production avec des H100
- Configuration de production : cluster de 72 GPU H100, pour un coût de 144 $/heure
- Taille de batch de 32, avec parallélisme tensoriel sur 8 GPU permettant d’exécuter 9 instances du modèle en parallèle
- Phase de préremplissage (traitement de l’entrée) : sur la base de la bande passante HBM de 3,35 To/s du H100, 45 passes avant par seconde
- Avec 32 séquences par batch (1 000 tokens en moyenne), cela représente 1,44 million de tokens d’entrée par seconde, soit 46,8 milliards par heure
- Pour un modèle MoE, le routage des experts peut réduire le débit de 30 à 50 %, mais l’effet reste limité grâce à un parallélisme efficace
- Phase de décodage (génération de sortie) : génération séquentielle des tokens, avec 1 440 tokens de sortie par seconde, soit 46,7 millions par heure
- Calcul du coût pur par token
- Tokens d’entrée : 144 $ ÷ 46,8 milliards = environ 0,003 $ par million de tokens
- Tokens de sortie : 144 $ ÷ 46,7 millions = environ 3,08 $ par million de tokens
- Asymétrie : l’écart de coût entre traitement de l’entrée et génération de sortie est d’environ 1 000 fois
Goulots d’étranglement du calcul
- En général, le goulot d’étranglement est la bande passante mémoire, mais avec des séquences de contexte longues de 128k+ c’est le calcul d’attention qui devient limitant, ce qui augmente les coûts de 2 à 10 fois
- Claude Code, avec sa limite de 200k tokens, reste dans un régime peu coûteux dominé par la mémoire et évite les scénarios centrés sur du calcul très coûteux
- La facturation additionnelle sur les longues fenêtres de contexte reflète cette réalité économique
Économie réelle côté utilisateur
- Offre grand public (ChatGPT Pro à 20 $/mois) : 100 000 tokens par jour (70 % entrée, 30 % sortie), pour un coût réel d’environ 3 $/mois
- Marge d’OpenAI : 5 à 6 fois
- Usage développeur (Claude Code Max 5, 100 $/mois) : 2 millions de tokens d’entrée et 30 000 de sortie par jour, pour un coût réel d’environ 4,92 $/mois, soit une marge de 20,3 fois
- Max 10 (200 $/mois) : 10 millions de tokens d’entrée et 100 000 tokens de sortie par jour, pour un coût réel d’environ 16,89 $/mois, soit une marge de 11,8 fois
- Les agents de code maximisent la rentabilité grâce à un profil d’usage centré sur l’entrée, donc peu coûteux
- Marge sur les API : aux tarifs actuels (3 $/15 $ par million de tokens) face à un coût réel (0,01/3), la marge atteint 80 à 95 %
Conclusion
- L’analyse repose sur plusieurs hypothèses et comporte donc une marge d’erreur, mais même avec un écart de 3x, la rentabilité resterait élevée
- Le traitement des entrées est peu coûteux, à environ 0,005 $ par million de tokens, tandis que la génération de sortie dépasse 3 $, soit un écart d’un facteur mille
- Le point central est la structure asymétrique des coûts entre tokens d’entrée et de sortie, et les services qui savent en tirer parti peuvent atteindre une forte rentabilité
- Charges de travail dominées par l’entrée (assistant de code, analyse documentaire, recherche, etc.) → structure de coût presque gratuite, rentabilité très élevée
- Charges de travail dominées par la sortie (ex. : génération vidéo) → peu d’entrée mais des millions de tokens en sortie, d’où une structure de coûts défavorable et des prix élevés inévitables
- L’affirmation selon laquelle « l’inférence IA est trop chère pour être soutenable » ne correspond pas à la structure réelle des coûts. Il pourrait plutôt s’agir d’une stratégie des grands acteurs historiques pour freiner la concurrence. En réalité, la structure des marges est déjà très solide
- De la même façon que l’exagération passée des coûts du cloud a servi à justifier les surprofits des Big Tech, le débat sur les coûts de l’inférence risque lui aussi d’alimenter un marketing excessif de la peur des coûts
- Il faut aborder la structure des coûts sur une base factuelle
Aucun commentaire pour le moment.