4 points par GN⁺ 2025-08-29 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Contrairement à une idée largement répandue dans le secteur, le coût de l’inférence IA est plus faible qu’on ne le pense et peut même garantir une forte rentabilité
  • Selon l’analyse, le coût des tokens d’entrée est pratiquement négligeable (environ 0,005 $ par million de tokens), tandis que le coût des tokens de sortie dépasse 3 $ par million, soit un écart d’un facteur 1 000
  • Les abonnements grand public (ex. : ChatGPT Pro à 20 $/mois) affichent une rentabilité de 5 à 6 fois le coût réel de l’inférence, et les offres pour développeurs (Claude Code) de 10 à 20 fois, ce qui traduit une très forte profitabilité
  • Les offres API dégagent des marges de 80 à plus de 95 % par rapport au coût réel, avec une structure de revenus comparable à celle du logiciel
  • Au final, l’inférence n’est pas un « gouffre financier », mais une activité très rentable lorsqu’on exploite efficacement la structure déséquilibrée entre entrée et sortie

Introduction

  • On avance souvent que l’IA, et en particulier l’inférence, engendre des coûts massifs, mais cette analyse adopte un point de vue sceptique et estime qu’un examen économique est nécessaire
    • L’auteur n’a pas d’expérience directe dans l’exploitation de grands modèles frontier, mais s’appuie sur sa compréhension du cloud à très haut débit et de la structure de coûts du bare metal par rapport aux hyperscalers
  • L’analyse relève du calcul de coin de table (napkin math) et se concentre sur les coûts de calcul purs
    • Le coût d’un GPU H100 est fixé à 2 $/heure, même si les grandes entreprises d’IA peuvent en réalité se les procurer à un tarif inférieur

Hypothèses

  • L’analyse se concentre uniquement sur le coût de calcul pur et teste la soutenabilité sans amélioration du modèle, sur la base de l’utilité des modèles actuels
    • Utilisation d’une architecture de type DeepSeek R1 (671B de paramètres au total, 37B actifs), avec l’hypothèse de performances comparables à Claude Sonnet 4 et GPT-5

Environnement de production avec des H100

  • Configuration de production : cluster de 72 GPU H100, pour un coût de 144 $/heure
    • Taille de batch de 32, avec parallélisme tensoriel sur 8 GPU permettant d’exécuter 9 instances du modèle en parallèle
  • Phase de préremplissage (traitement de l’entrée) : sur la base de la bande passante HBM de 3,35 To/s du H100, 45 passes avant par seconde
    • Avec 32 séquences par batch (1 000 tokens en moyenne), cela représente 1,44 million de tokens d’entrée par seconde, soit 46,8 milliards par heure
    • Pour un modèle MoE, le routage des experts peut réduire le débit de 30 à 50 %, mais l’effet reste limité grâce à un parallélisme efficace
  • Phase de décodage (génération de sortie) : génération séquentielle des tokens, avec 1 440 tokens de sortie par seconde, soit 46,7 millions par heure
  • Calcul du coût pur par token
    • Tokens d’entrée : 144 $ ÷ 46,8 milliards = environ 0,003 $ par million de tokens
    • Tokens de sortie : 144 $ ÷ 46,7 millions = environ 3,08 $ par million de tokens
      • Asymétrie : l’écart de coût entre traitement de l’entrée et génération de sortie est d’environ 1 000 fois

Goulots d’étranglement du calcul

  • En général, le goulot d’étranglement est la bande passante mémoire, mais avec des séquences de contexte longues de 128k+ c’est le calcul d’attention qui devient limitant, ce qui augmente les coûts de 2 à 10 fois
    • Claude Code, avec sa limite de 200k tokens, reste dans un régime peu coûteux dominé par la mémoire et évite les scénarios centrés sur du calcul très coûteux
    • La facturation additionnelle sur les longues fenêtres de contexte reflète cette réalité économique

Économie réelle côté utilisateur

  • Offre grand public (ChatGPT Pro à 20 $/mois) : 100 000 tokens par jour (70 % entrée, 30 % sortie), pour un coût réel d’environ 3 $/mois
    • Marge d’OpenAI : 5 à 6 fois
  • Usage développeur (Claude Code Max 5, 100 $/mois) : 2 millions de tokens d’entrée et 30 000 de sortie par jour, pour un coût réel d’environ 4,92 $/mois, soit une marge de 20,3 fois
    • Max 10 (200 $/mois) : 10 millions de tokens d’entrée et 100 000 tokens de sortie par jour, pour un coût réel d’environ 16,89 $/mois, soit une marge de 11,8 fois
    • Les agents de code maximisent la rentabilité grâce à un profil d’usage centré sur l’entrée, donc peu coûteux
  • Marge sur les API : aux tarifs actuels (3 $/15 $ par million de tokens) face à un coût réel (0,01/3), la marge atteint 80 à 95 %

Conclusion

  • L’analyse repose sur plusieurs hypothèses et comporte donc une marge d’erreur, mais même avec un écart de 3x, la rentabilité resterait élevée
    • Le traitement des entrées est peu coûteux, à environ 0,005 $ par million de tokens, tandis que la génération de sortie dépasse 3 $, soit un écart d’un facteur mille
  • Le point central est la structure asymétrique des coûts entre tokens d’entrée et de sortie, et les services qui savent en tirer parti peuvent atteindre une forte rentabilité
    • Charges de travail dominées par l’entrée (assistant de code, analyse documentaire, recherche, etc.) → structure de coût presque gratuite, rentabilité très élevée
    • Charges de travail dominées par la sortie (ex. : génération vidéo) → peu d’entrée mais des millions de tokens en sortie, d’où une structure de coûts défavorable et des prix élevés inévitables
  • L’affirmation selon laquelle « l’inférence IA est trop chère pour être soutenable » ne correspond pas à la structure réelle des coûts. Il pourrait plutôt s’agir d’une stratégie des grands acteurs historiques pour freiner la concurrence. En réalité, la structure des marges est déjà très solide
  • De la même façon que l’exagération passée des coûts du cloud a servi à justifier les surprofits des Big Tech, le débat sur les coûts de l’inférence risque lui aussi d’alimenter un marketing excessif de la peur des coûts
    • Il faut aborder la structure des coûts sur une base factuelle

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.