26 points par GN⁺ 2025-06-10 | 4 commentaires | Partager sur WhatsApp
  • La plupart des gens ont tendance à surestimer le coût d’utilisation des LLM (grands modèles de langage), alors qu’en réalité ils deviennent rapidement moins chers, au point d’atteindre un niveau inférieur à celui de la recherche web
    • Au début de l’engouement pour l’IA générative, le coût de l’inférence était élevé, mais il a diminué de près d’un facteur 1000 au cours des deux dernières années
  • Une comparaison directe entre les prix réels des API LLM et des API de recherche web montre que les modèles LLM d’entrée de gamme sont même plus de 10 fois moins chers que les API de recherche les moins chères, et que les modèles de milieu de gamme présentent eux aussi une structure tarifaire très compétitive
  • Il existe peu d’éléments prouvant que les opérateurs de modèles subventionnent excessivement leurs prix d’API, et certains cas affichent même des marges élevées, atteignant 80 % sur la base du coût GPU
  • Si OpenAI et d’autres grandes entreprises de l’IA sont déficitaires, ce n’est pas à cause des coûts, mais d’une politique de monétisation trop faible ; il suffirait d’un revenu de 1 dollar par utilisateur et par mois pour repasser dans le vert
  • À l’avenir, le centre de gravité des coûts devrait se déplacer non plus vers les LLM eux-mêmes, mais vers les services backend externes (par ex. les différents fournisseurs de données). L’exécution des LLM devient de moins en moins chère, et le modèle économique est lui aussi tout à fait viable

Les idées reçues sur le coût des LLM et la réalité

  • Beaucoup de gens pensent à tort que le coût d’exploitation des LLM comme ChatGPT est très élevé
  • Cela conduit à répéter des analyses erronées, selon lesquelles la viabilité des entreprises d’IA serait floue ou la monétisation des services d’IA grand public désavantagée
  • L’idée que les LLM sont encore chers relève d’une erreur de perception
    • Au début du boom de l’IA, le coût de l’inférence était très élevé, mais il a chuté de près d’un facteur 1000 au cours des deux dernières années
    • De nombreuses discussions reposent sur des structures de coûts obsolètes et aboutissent à des prévisions erronées
  • Le « modèle de tarification par million de tokens » couramment utilisé est difficile à comprendre intuitivement

Comparaison des prix entre API de recherche web et API LLM

  • Tarifs des principales API de recherche web
    • Google Search: $35/1000 requêtes
    • Bing Search: $15/1000 requêtes
    • Brave Search: $5~9/1000 requêtes, avec une structure où le prix augmente paradoxalement quand le volume unitaire augmente
    • Dans l’ensemble, les API de recherche web ne sont pas vraiment bon marché, et les services de meilleure qualité sont plus chers
  • Tarifs des API LLM (base 1k tokens)
    • Gemma 3 27B: $0.20
    • Gemini 2.0 Flash: $0.40
    • GPT-4.1 nano: $0.40
    • Deepseek V3: $1.10
    • GPT-4.1: $8.00, etc.
    • Pour comparer correctement avec la recherche, il faut estimer le coût LLM de façon comparable : nombre de tokens générés par requête + prix par token
    • 500 à 1000 tokens représentent la consommation moyenne par requête, ce qui permet une comparaison directe
  • Les modèles LLM low cost sont 10 à 25 fois moins chers que l’API de recherche la moins chère
    • Même des LLM de qualité intermédiaire coûtent bien moins cher que la recherche dans la même plage de comparaison
    • En tenant compte des traitements par lots, des remises en heures creuses et d’autres conditions de réduction, cela devient encore moins cher

Les vraies raisons de ces coûts bas

  • L’hypothèse d’une subvention des prix d’API par les fournisseurs de modèles est peu fondée
    • L’incitation à gagner des parts de marché via l’API est faible, et les prix des API proposées par de nombreux concurrents sont eux aussi fixés de manière compétitive
    • Selon les mesures publiées par Deepseek, la marge basée sur les GPU atteint 80 %
  • Coût de l’entraînement (Training) et coût de l’inférence (Inference)
    • Le coût d’entraînement est effectivement amorti par les gros volumes de trafic d’inférence
    • À l’inverse, les coûts liés à l’utilisation de services backend tiers pourraient devenir le vrai sujet

Réponse à l’idée que « les API LLM sont forcément déficitaires »

  • Les pertes des grands acteurs comme OpenAI résultent d’une stratégie de monétisation trop faible
    • Une monétisation de l’ordre de 1 dollar par mois suffirait déjà à retrouver la rentabilité
    • Il existe aussi des objectifs comme la collecte de données via le trafic des utilisateurs gratuits
  • Le vrai sujet de coût à l’avenir ne sera pas le LLM, mais les backends externes
    • Exemple : lorsqu’un agent IA appelle une API externe pour réserver des billets, la charge de coût réelle peut surtout peser sur le tiers concerné
    • Les opérateurs de services devraient réagir par des blocages du crawling, un basculement vers le mobile, un renforcement de l’authentification, etc.

Pourquoi c’est important

  • Beaucoup de prévisions sur l’avenir reposent sur la prémisse erronée selon laquelle les LLM sont coûteux
  • En réalité, la baisse des coûts et la hausse de la demande se produisent simultanément ; les prix devraient encore baisser et le marché s’animer davantage
  • Les entreprises de frontier AI se concentrent davantage sur la conquête du marché que sur la monétisation, ce qui contribue aussi à des prix particulièrement bas pour les services LLM
  • Le vrai problème de coût ne réside pas dans les LLM eux-mêmes, mais dans les services externes interconnectés en aval (par ex. les sites de billetterie)
  • Comme ces services externes risquent de ne pas pouvoir capter de revenus dans cette structure, de nouveaux modèles économiques ou des tensions techniques entre IA et services backend pourraient apparaître

Conclusion et perspectives

  • Le coût d’inférence des LLM n’est plus en soi une contrainte fondamentale pour le business de l’IA
    • Avec un coût d’exécution faible et diverses options de monétisation (par ex. publicité, abonnement), la viabilité économique est bien réelle
    • À l’avenir, le principal défi ne viendra pas des LLM, mais des coûts et de l’infrastructure des fournisseurs de données externes utilisés par l’IA
  • Il faut adopter une perception réaliste des coûts et faire évoluer la stratégie business en fonction des changements du marché et de la technologie

4 commentaires

 
click 2025-06-12

Quand j’ai simulé des scénarios où l’on s’équipe en cartes graphiques en on-prem ou où l’on loue des GPU dans le cloud, je trouvais ça extrêmement cher,
mais on dirait qu’une fois les économies d’échelle atteintes, ça devient assez envisageable.

 
ethanhur 2025-06-11

Je doutais qu’il soit possible de faire de la monétisation avec les LLM, donc c’est surprenant que la réponse soit positive.

 
mhj5730 2025-06-11

Des résultats d’enquête plus choquants que je ne l’imaginais… Le coût d’utilisation de modèles ayant bénéficié de dizaines de milliers de milliards de wons d’investissements est faible, et il semble même possible de les rentabiliser largement avec ce niveau de coût…

 
GN⁺ 2025-06-10
Commentaires sur Hacker News
  • Il estime qu’il n’est pas pertinent de comparer une API de recherche rentable avec une API LLM cloud qui accepte des pertes pour gagner des parts de marché
    Les données actuelles reflètent surtout une situation où les entreprises engagent des investissements massifs en capex pour prendre l’avantage dans l’IA, sans avoir encore atteint le stade de la rentabilité
    Les deux produits en sont à des niveaux de maturité totalement différents, et on ne peut pas ignorer qu’il est impossible de justifier durablement des pertes sur un service vieux de 10 ans dont l’usage diminue
    Il souligne aussi que les requêtes de recherche peuvent être traitées avec des CPU et un taux de cache élevé, alors que l’inférence LLM exige surtout des GPU et produit des résultats token par token, ce qui rend le partage de cache entre utilisateurs difficile

    • Certains disent qu’il n’existe aucune preuve que les services d’inférence ne soient pas rentables, mais selon lui il suffit de payer soi-même les coûts d’inférence chez un hébergeur comme AWS pour s’en rendre compte
      AWS ne va pas subventionner indéfiniment un service qui exécute des modèles tiers, et le point important est que les investissements sont du capex alors que le coût d’exécution de l’inférence est de l’opex

    • Aujourd’hui, les fournisseurs d’API qui hébergent des modèles open source conservent souvent une marge importante entre le prix de l’API et le coût réel du matériel d’inférence
      Ce n’est bien sûr pas toute l’histoire, mais avec leurs propres optimisations d’inférence la marge peut encore augmenter
      Il pense aussi que des fournisseurs de modèles fermés comme OpenAI ou Anthropic, si l’on se base sur les spécifications publiques des modèles, dégagent probablement eux aussi de très bonnes marges entre les tarifs API et le coût matériel, en particulier Anthropic
      Selon lui, toute personne ayant fait tourner ces modèles en production peut le vérifier directement

    • Il y a des indices selon lesquels Perplexity aurait manipulé sa comptabilité en reclassant une partie du COGS en R&D afin d’afficher une meilleure marge
      Lien

    • D’après une analyse du service API de DeepSeek, l’entreprise afficherait non seulement une marge de 500 %, mais proposerait aussi le même type de modèle à un prix bien inférieur à celui des sociétés américaines
      Il estime qu’OpenAI et Anthropic pourraient elles aussi avoir des marges encore plus élevées
      Les GPU sont en général supérieurs aux CPU à la fois en coût et en efficacité énergétique, et Anthropic utilise du caching de KV-cache sur des prompts système de 24k tokens

    • Il n’est pas d’accord avec l’idée selon laquelle les API LLM seraient une stratégie consistant à vendre à perte pour conquérir le marché
      Aujourd’hui, avec des services comme openrouter qui permettent de changer librement de modèle ou de fournisseur, il n’y a pas vraiment d’effet de lock-in, donc une stratégie de prise de parts de marché n’a pas beaucoup de sens économiquement
      Cela pourrait éventuellement se défendre pour un produit orienté UI comme le site web de ChatGPT, mais vendre une API à perte lui paraît absurde
      Il pense même que les VC n’accepteraient pas une stratégie consistant à vendre une API à perte

  • Il juge que comparer moteur de recherche et LLM en supposant qu’ils ne servent qu’à faire de la recherche factuelle simple (par exemple : « Quelle est la capitale des États-Unis ? ») est une analogie trop éloignée des usages principaux des deux services
    Dans le cas d’un moteur de recherche, l’objectif est l’accès à un index du web, et obtenir une réponse directe relève plutôt de l’UI ou du produit, pas de l’API
    Avec un LLM, on l’utilise plutôt pour l’analyse de gros volumes de données, la reconnaissance d’images, le raisonnement complexe ou la programmation, donc pour des usages plus sophistiqués où la consommation de tokens est bien plus élevée que pour une simple réponse de recherche
    Il a le sentiment que l’auteur fait un mauvais rapprochement, du genre « une Honda Civic est bon marché parce que son prix au kilo est proche de celui des pommes »

    • Il a l’impression que le modèle traditionnel du moteur de recherche devient de moins en moins utile
      Les experts utilisent de moins en moins les moteurs de recherche, et les utilisateurs grand public les emploient eux aussi de plus en plus dans un mode conversationnel, comme s’ils parlaient à une personne, plutôt que pour explorer un index web
      Des requêtes comme « Quelle est la capitale des États-Unis ? », avec tout leur habillage inutile, conviennent finalement mieux à un LLM qu’à un moteur de recherche
      Il y a aussi un vrai problème de dégradation de la qualité de recherche à cause de la prolifération des sites de spam SEO
      Les LLM gèrent mieux les questions formulées naturellement et sélectionnent directement la réponse utile sans explications interminables, spam ni publicité, ce qui les rendra selon lui de plus en plus utiles

    • Il n’est pas d’accord avec l’idée que l’auteur « limite la comparaison entre recherche et LLM aux seules requêtes factuelles simples », mais selon lui le cœur réel de l’analyse n’est pas de comparer moteurs de recherche et LLM en tant que services
      Il s’agit simplement de comparer les écarts entre prix facturé et coût unitaire (token/requête) afin d’en déduire la marge
      Si l’on veut savoir si une API est subventionnée ou non, il n’est pas indispensable de la comparer à un moteur de recherche

    • Il reconnaît qu’utiliser les LLM pour l’analyse de données à grande échelle et des usages complexes est effectivement pertinent, mais que cela correspond davantage à des power users

    • Il estime que l’idée selon laquelle un moteur de recherche sert à retrouver un index du web est un bon point
      Mais il pense aussi que les LLM peuvent retrouver l’information voulue de manière plus précise, plus rapide et sans redondance, donc on ne peut pas affirmer que la recherche classique est toujours meilleure
      Si le LLM fournit une réponse directe, voire des liens pour permettre une vérification, la satisfaction utilisateur peut même être supérieure
      Selon lui, si Google enfouit de plus en plus les résultats de recherche, c’est aussi parce que la réalité est que les résultats fondés sur l’index deviennent moins utiles

    • Il existe aussi des éléments montrant qu’OpenAI n’a pas enregistré une perte énorme en 2024, et qu’au vu du trafic mensuel et de l’usage, le coût réel de l’inférence n’est peut-être pas si élevé
      Étant donné que ChatGPT est l’un des sites les plus visités au monde chaque mois et que la majorité du trafic est gratuite, le coût réel pourrait être inférieur à ce qu’on imagine

  • Il s’interroge sur le manque de clarté des hypothèses utilisées pour estimer les coûts liés aux LLM
    Par exemple, pour des faits récents comme les dimensions autorisées pour les bagages en avion, il est plus fiable d’ajouter une fonction de recherche web au LLM afin qu’il puisse vérifier ses sources
    Dans ce cas, la consommation de tokens grimpe rapidement et l’estimation des coûts peut devenir fausse
    Quand la conversation se prolonge sur plusieurs tours et que le contexte s’accumule, la consommation totale de tokens augmente fortement
    Il reconnaît qu’il est difficile d’évaluer les coûts sans données d’usage réelles

    • Il explique qu’il interroge les LLM sur l’actualité, et que ceux-ci lisent directement plusieurs pages web puis les résument
      Lorsqu’on pose une question récente, ils effectuent une recherche web et ajoutent des liens de référence, ce qui en fait selon lui un usage pertinent

    • Il dit avoir demandé « quelle est la taille autorisée en cabine sur la ligne DFW-CDG d’une compagnie américaine », et que le LLM a répondu correctement en utilisant la recherche web, avec en plus le site officiel et un lien FAA
      Il considère cette manière de faire comme efficace

  • Compte tenu des difficultés d’approvisionnement en semi-conducteurs, du coût élevé de l’électricité et des équipements, il ne pense pas que les grands acteurs puissent déjà rendre très rentables des services LLM basés sur API sans amélioration substantielle de leur rentabilité
    Tant que le prix du matériel et le problème de l’énergie ne seront pas mieux résolus, il sera difficile de générer de gros profits à court terme
    Il cite en exemple YouTube, dont Alphabet ne publie toujours pas clairement le niveau précis de rentabilité même après 20 ans d’exploitation

    • Il rappelle que la forte rentabilité d’Alphabet (Google) vient surtout de sa domination écrasante du marché de la recherche et des revenus publicitaires
      Les entreprises de l’IA parient qu’elles pourront elles aussi un jour convertir leurs parts de marché en chiffre d’affaires
      Si un effet de stickiness se crée, la conversion parts de marché → revenus pourrait tout à fait fonctionner

    • Il affirme aussi que la hausse du cours de l’action peut, dans une certaine mesure, être elle-même un indicateur de rentabilité d’entreprise
      Il mentionne qu’Amazon a suivi une stratégie similaire pendant plus de 10 ans

  • À partir du chiffre d’une perte de 500 millions de dollars pour OpenAI en 2024 et de 500 millions de MAU, la logique selon laquelle « il suffirait de convertir 500 M d’utilisateurs gratuits à un ARPU annuel de 10 $ pour atteindre le point mort » lui paraît irréaliste
    Si l’on faisait payer ne serait-ce que 1 $ aux utilisateurs gratuits, la majorité partirait probablement
    Selon lui, le mot « simplement » simplifie excessivement la réalité

    • En réalité, il ne s’agit pas de dire qu’il faudrait convertir ces utilisateurs en un abonnement à 1 $/mois, mais que faire tourner des LLM est devenu aujourd’hui très bon marché, au point qu’un modèle financé par la publicité pourrait suffire à être rentable
      Comparé à d’autres services de taille similaire reposant sur la publicité, le coût de revient des LLM est désormais bien plus faible, et l’abonnement n’est pas la seule réponse possible

    • Convertir 500 millions de personnes en utilisateurs payants pourrait au contraire transformer radicalement les usages du service et sa structure de coûts, au point de faire exploser les dépenses
      On peut tout aussi bien poser l’hypothèse simple que si seulement 1 % des utilisateurs paient, cela représente déjà 1 milliard de dollars par an

    • Il pense que si ces services fonctionnent à perte, c’est parce que la valeur des données utilisateur dépasse largement celle des abonnements

    • Selon lui, il n’est pas nécessaire que tout le monde devienne payant : il suffit qu’une partie des utilisateurs payants subventionne les autres pour que le modèle tienne

  • Il prévoit qu’avec le temps, après concentration des parts de marché et arrivée de la régulation, les investisseurs imposeront la hausse des prix promise

    • Ou bien les revenus viendront probablement de la publicité
      Quelle que soit la question posée, on pourrait voir une publicité Coca-Cola entre deux réponses
      Un projet de code généré par IA pourrait inclure des annonces automatiquement
      Une publicité pour une assurance pourrait être insérée dans un email sur dix rédigé par une IA
      Les possibilités de monétisation sont infinies
  • En interne, ils ont estimé le coût d’exploitation d’un LLM principalement à partir de la consommation électrique, et même en tenant compte de requêtes en rafale de la part des utilisateurs internes, le coût n’atteint qu’une dizaine de dollars par million de tokens
    La charge serveur n’étant pas élevée, il y a selon lui encore beaucoup de marge pour réduire davantage les coûts à grande échelle

    • Quelqu’un demande si ce calcul repose uniquement sur la consommation électrique
  • Il doute qu’on puisse comparer directement une réponse tokenisée de LLM et un résultat de moteur de recherche comme s’il s’agissait de la même unité
    L’auteur compare 1 000 appels LLM (environ 1 million de tokens) à 1 000 requêtes de recherche, mais il soupçonne au départ une erreur potentielle d’un facteur 1 000
    (Correction ultérieure : après avoir revu la méthode de l’auteur, il confirme qu’il s’agissait bien d’une comparaison de prix sur la base de 1 000 usages API, et qu’il s’agissait donc d’un malentendu)

    • Il corrige en disant que l’auteur a bien comparé le prix unitaire de 1 000 appels LLM (1 million de tokens au total) à 1 000 appels de recherche

    • Si Gemini 2.0 Flash coûte 0,4 $ pour 1 million de tokens et que l’API Bing Search coûte 15 $ pour 1 000 requêtes, alors le calcul donne un LLM 37 fois moins cher

  • Si l’on s’attend à de futurs gains d’efficacité et à une baisse des coûts de 100x, il se demande pourquoi on construit autant de nouveaux data centers dès maintenant
    Peut-être qu’un simple cycle de renouvellement des machines permettrait déjà de tirer parti des data centers existants
    Il évoque aussi la possibilité que la frénésie actuelle d’investissement soit en réalité une bulle

  • Il partage un article connexe de comparaison de performances
    Lien
    À ses yeux, si l’on ne regarde que le prix réel, cela reste cher
    Et dans une situation de concurrence extrême pour les parts de marché, on ne peut pas interpréter les chiffres isolément