Les LLM sont vraiment bon marché

(snellman.net)

26 points par GN⁺ 2025-06-10 | 4 commentaires | Partager sur WhatsApp

La plupart des gens ont tendance à surestimer le coût d’utilisation des LLM (grands modèles de langage), alors qu’en réalité ils deviennent rapidement moins chers, au point d’atteindre un niveau inférieur à celui de la recherche web
- Au début de l’engouement pour l’IA générative, le coût de l’inférence était élevé, mais il a diminué de près d’un facteur 1000 au cours des deux dernières années
Une comparaison directe entre les prix réels des API LLM et des API de recherche web montre que les modèles LLM d’entrée de gamme sont même plus de 10 fois moins chers que les API de recherche les moins chères, et que les modèles de milieu de gamme présentent eux aussi une structure tarifaire très compétitive
Il existe peu d’éléments prouvant que les opérateurs de modèles subventionnent excessivement leurs prix d’API, et certains cas affichent même des marges élevées, atteignant 80 % sur la base du coût GPU
Si OpenAI et d’autres grandes entreprises de l’IA sont déficitaires, ce n’est pas à cause des coûts, mais d’une politique de monétisation trop faible ; il suffirait d’un revenu de 1 dollar par utilisateur et par mois pour repasser dans le vert
À l’avenir, le centre de gravité des coûts devrait se déplacer non plus vers les LLM eux-mêmes, mais vers les services backend externes (par ex. les différents fournisseurs de données). L’exécution des LLM devient de moins en moins chère, et le modèle économique est lui aussi tout à fait viable

Les idées reçues sur le coût des LLM et la réalité

Beaucoup de gens pensent à tort que le coût d’exploitation des LLM comme ChatGPT est très élevé
Cela conduit à répéter des analyses erronées, selon lesquelles la viabilité des entreprises d’IA serait floue ou la monétisation des services d’IA grand public désavantagée
L’idée que les LLM sont encore chers relève d’une erreur de perception
- Au début du boom de l’IA, le coût de l’inférence était très élevé, mais il a chuté de près d’un facteur 1000 au cours des deux dernières années
- De nombreuses discussions reposent sur des structures de coûts obsolètes et aboutissent à des prévisions erronées
Le « modèle de tarification par million de tokens » couramment utilisé est difficile à comprendre intuitivement

Comparaison des prix entre API de recherche web et API LLM

Tarifs des principales API de recherche web
- Google Search: $35/1000 requêtes
- Bing Search: $15/1000 requêtes
- Brave Search: $5~9/1000 requêtes, avec une structure où le prix augmente paradoxalement quand le volume unitaire augmente
- Dans l’ensemble, les API de recherche web ne sont pas vraiment bon marché, et les services de meilleure qualité sont plus chers
Tarifs des API LLM (base 1k tokens)
- Gemma 3 27B: $0.20
- Gemini 2.0 Flash: $0.40
- GPT-4.1 nano: $0.40
- Deepseek V3: $1.10
- GPT-4.1: $8.00, etc.
- Pour comparer correctement avec la recherche, il faut estimer le coût LLM de façon comparable : nombre de tokens générés par requête + prix par token
- 500 à 1000 tokens représentent la consommation moyenne par requête, ce qui permet une comparaison directe
Les modèles LLM low cost sont 10 à 25 fois moins chers que l’API de recherche la moins chère
- Même des LLM de qualité intermédiaire coûtent bien moins cher que la recherche dans la même plage de comparaison
- En tenant compte des traitements par lots, des remises en heures creuses et d’autres conditions de réduction, cela devient encore moins cher

Les vraies raisons de ces coûts bas

L’hypothèse d’une subvention des prix d’API par les fournisseurs de modèles est peu fondée
- L’incitation à gagner des parts de marché via l’API est faible, et les prix des API proposées par de nombreux concurrents sont eux aussi fixés de manière compétitive
- Selon les mesures publiées par Deepseek, la marge basée sur les GPU atteint 80 %
Coût de l’entraînement (Training) et coût de l’inférence (Inference)
- Le coût d’entraînement est effectivement amorti par les gros volumes de trafic d’inférence
- À l’inverse, les coûts liés à l’utilisation de services backend tiers pourraient devenir le vrai sujet

Réponse à l’idée que « les API LLM sont forcément déficitaires »

Les pertes des grands acteurs comme OpenAI résultent d’une stratégie de monétisation trop faible
- Une monétisation de l’ordre de 1 dollar par mois suffirait déjà à retrouver la rentabilité
- Il existe aussi des objectifs comme la collecte de données via le trafic des utilisateurs gratuits
Le vrai sujet de coût à l’avenir ne sera pas le LLM, mais les backends externes
- Exemple : lorsqu’un agent IA appelle une API externe pour réserver des billets, la charge de coût réelle peut surtout peser sur le tiers concerné
- Les opérateurs de services devraient réagir par des blocages du crawling, un basculement vers le mobile, un renforcement de l’authentification, etc.

Pourquoi c’est important

Beaucoup de prévisions sur l’avenir reposent sur la prémisse erronée selon laquelle les LLM sont coûteux
En réalité, la baisse des coûts et la hausse de la demande se produisent simultanément ; les prix devraient encore baisser et le marché s’animer davantage
Les entreprises de frontier AI se concentrent davantage sur la conquête du marché que sur la monétisation, ce qui contribue aussi à des prix particulièrement bas pour les services LLM
Le vrai problème de coût ne réside pas dans les LLM eux-mêmes, mais dans les services externes interconnectés en aval (par ex. les sites de billetterie)
Comme ces services externes risquent de ne pas pouvoir capter de revenus dans cette structure, de nouveaux modèles économiques ou des tensions techniques entre IA et services backend pourraient apparaître

Conclusion et perspectives

Le coût d’inférence des LLM n’est plus en soi une contrainte fondamentale pour le business de l’IA
- Avec un coût d’exécution faible et diverses options de monétisation (par ex. publicité, abonnement), la viabilité économique est bien réelle
- À l’avenir, le principal défi ne viendra pas des LLM, mais des coûts et de l’infrastructure des fournisseurs de données externes utilisés par l’IA
Il faut adopter une perception réaliste des coûts et faire évoluer la stratégie business en fonction des changements du marché et de la technologie

4 commentaires

click 2025-06-12

Quand j’ai simulé des scénarios où l’on s’équipe en cartes graphiques en on-prem ou où l’on loue des GPU dans le cloud, je trouvais ça extrêmement cher,
mais on dirait qu’une fois les économies d’échelle atteintes, ça devient assez envisageable.

ethanhur 2025-06-11

Je doutais qu’il soit possible de faire de la monétisation avec les LLM, donc c’est surprenant que la réponse soit positive.

mhj5730 2025-06-11

Des résultats d’enquête plus choquants que je ne l’imaginais… Le coût d’utilisation de modèles ayant bénéficié de dizaines de milliers de milliards de wons d’investissements est faible, et il semble même possible de les rentabiliser largement avec ce niveau de coût…

GN⁺ 2025-06-10

Commentaires sur Hacker News

Il estime qu’il n’est pas pertinent de comparer une API de recherche rentable avec une API LLM cloud qui accepte des pertes pour gagner des parts de marché
Les données actuelles reflètent surtout une situation où les entreprises engagent des investissements massifs en capex pour prendre l’avantage dans l’IA, sans avoir encore atteint le stade de la rentabilité
Les deux produits en sont à des niveaux de maturité totalement différents, et on ne peut pas ignorer qu’il est impossible de justifier durablement des pertes sur un service vieux de 10 ans dont l’usage diminue
Il souligne aussi que les requêtes de recherche peuvent être traitées avec des CPU et un taux de cache élevé, alors que l’inférence LLM exige surtout des GPU et produit des résultats token par token, ce qui rend le partage de cache entre utilisateurs difficile
- Certains disent qu’il n’existe aucune preuve que les services d’inférence ne soient pas rentables, mais selon lui il suffit de payer soi-même les coûts d’inférence chez un hébergeur comme AWS pour s’en rendre compte
  AWS ne va pas subventionner indéfiniment un service qui exécute des modèles tiers, et le point important est que les investissements sont du capex alors que le coût d’exécution de l’inférence est de l’opex
- Aujourd’hui, les fournisseurs d’API qui hébergent des modèles open source conservent souvent une marge importante entre le prix de l’API et le coût réel du matériel d’inférence
  Ce n’est bien sûr pas toute l’histoire, mais avec leurs propres optimisations d’inférence la marge peut encore augmenter
  Il pense aussi que des fournisseurs de modèles fermés comme OpenAI ou Anthropic, si l’on se base sur les spécifications publiques des modèles, dégagent probablement eux aussi de très bonnes marges entre les tarifs API et le coût matériel, en particulier Anthropic
  Selon lui, toute personne ayant fait tourner ces modèles en production peut le vérifier directement
- Il y a des indices selon lesquels Perplexity aurait manipulé sa comptabilité en reclassant une partie du COGS en R&D afin d’afficher une meilleure marge
  Lien
- D’après une analyse du service API de DeepSeek, l’entreprise afficherait non seulement une marge de 500 %, mais proposerait aussi le même type de modèle à un prix bien inférieur à celui des sociétés américaines
  Il estime qu’OpenAI et Anthropic pourraient elles aussi avoir des marges encore plus élevées
  Les GPU sont en général supérieurs aux CPU à la fois en coût et en efficacité énergétique, et Anthropic utilise du caching de KV-cache sur des prompts système de 24k tokens
- Il n’est pas d’accord avec l’idée selon laquelle les API LLM seraient une stratégie consistant à vendre à perte pour conquérir le marché
  Aujourd’hui, avec des services comme openrouter qui permettent de changer librement de modèle ou de fournisseur, il n’y a pas vraiment d’effet de lock-in, donc une stratégie de prise de parts de marché n’a pas beaucoup de sens économiquement
  Cela pourrait éventuellement se défendre pour un produit orienté UI comme le site web de ChatGPT, mais vendre une API à perte lui paraît absurde
  Il pense même que les VC n’accepteraient pas une stratégie consistant à vendre une API à perte
Il juge que comparer moteur de recherche et LLM en supposant qu’ils ne servent qu’à faire de la recherche factuelle simple (par exemple : « Quelle est la capitale des États-Unis ? ») est une analogie trop éloignée des usages principaux des deux services
Dans le cas d’un moteur de recherche, l’objectif est l’accès à un index du web, et obtenir une réponse directe relève plutôt de l’UI ou du produit, pas de l’API
Avec un LLM, on l’utilise plutôt pour l’analyse de gros volumes de données, la reconnaissance d’images, le raisonnement complexe ou la programmation, donc pour des usages plus sophistiqués où la consommation de tokens est bien plus élevée que pour une simple réponse de recherche
Il a le sentiment que l’auteur fait un mauvais rapprochement, du genre « une Honda Civic est bon marché parce que son prix au kilo est proche de celui des pommes »
- Il a l’impression que le modèle traditionnel du moteur de recherche devient de moins en moins utile
  Les experts utilisent de moins en moins les moteurs de recherche, et les utilisateurs grand public les emploient eux aussi de plus en plus dans un mode conversationnel, comme s’ils parlaient à une personne, plutôt que pour explorer un index web
  Des requêtes comme « Quelle est la capitale des États-Unis ? », avec tout leur habillage inutile, conviennent finalement mieux à un LLM qu’à un moteur de recherche
  Il y a aussi un vrai problème de dégradation de la qualité de recherche à cause de la prolifération des sites de spam SEO
  Les LLM gèrent mieux les questions formulées naturellement et sélectionnent directement la réponse utile sans explications interminables, spam ni publicité, ce qui les rendra selon lui de plus en plus utiles
- Il n’est pas d’accord avec l’idée que l’auteur « limite la comparaison entre recherche et LLM aux seules requêtes factuelles simples », mais selon lui le cœur réel de l’analyse n’est pas de comparer moteurs de recherche et LLM en tant que services
  Il s’agit simplement de comparer les écarts entre prix facturé et coût unitaire (token/requête) afin d’en déduire la marge
  Si l’on veut savoir si une API est subventionnée ou non, il n’est pas indispensable de la comparer à un moteur de recherche
- Il reconnaît qu’utiliser les LLM pour l’analyse de données à grande échelle et des usages complexes est effectivement pertinent, mais que cela correspond davantage à des power users
- Il estime que l’idée selon laquelle un moteur de recherche sert à retrouver un index du web est un bon point
  Mais il pense aussi que les LLM peuvent retrouver l’information voulue de manière plus précise, plus rapide et sans redondance, donc on ne peut pas affirmer que la recherche classique est toujours meilleure
  Si le LLM fournit une réponse directe, voire des liens pour permettre une vérification, la satisfaction utilisateur peut même être supérieure
  Selon lui, si Google enfouit de plus en plus les résultats de recherche, c’est aussi parce que la réalité est que les résultats fondés sur l’index deviennent moins utiles
- Il existe aussi des éléments montrant qu’OpenAI n’a pas enregistré une perte énorme en 2024, et qu’au vu du trafic mensuel et de l’usage, le coût réel de l’inférence n’est peut-être pas si élevé
  Étant donné que ChatGPT est l’un des sites les plus visités au monde chaque mois et que la majorité du trafic est gratuite, le coût réel pourrait être inférieur à ce qu’on imagine
Il s’interroge sur le manque de clarté des hypothèses utilisées pour estimer les coûts liés aux LLM
Par exemple, pour des faits récents comme les dimensions autorisées pour les bagages en avion, il est plus fiable d’ajouter une fonction de recherche web au LLM afin qu’il puisse vérifier ses sources
Dans ce cas, la consommation de tokens grimpe rapidement et l’estimation des coûts peut devenir fausse
Quand la conversation se prolonge sur plusieurs tours et que le contexte s’accumule, la consommation totale de tokens augmente fortement
Il reconnaît qu’il est difficile d’évaluer les coûts sans données d’usage réelles
- Il explique qu’il interroge les LLM sur l’actualité, et que ceux-ci lisent directement plusieurs pages web puis les résument
  Lorsqu’on pose une question récente, ils effectuent une recherche web et ajoutent des liens de référence, ce qui en fait selon lui un usage pertinent
- Il dit avoir demandé « quelle est la taille autorisée en cabine sur la ligne DFW-CDG d’une compagnie américaine », et que le LLM a répondu correctement en utilisant la recherche web, avec en plus le site officiel et un lien FAA
  Il considère cette manière de faire comme efficace
Compte tenu des difficultés d’approvisionnement en semi-conducteurs, du coût élevé de l’électricité et des équipements, il ne pense pas que les grands acteurs puissent déjà rendre très rentables des services LLM basés sur API sans amélioration substantielle de leur rentabilité
Tant que le prix du matériel et le problème de l’énergie ne seront pas mieux résolus, il sera difficile de générer de gros profits à court terme
Il cite en exemple YouTube, dont Alphabet ne publie toujours pas clairement le niveau précis de rentabilité même après 20 ans d’exploitation
- Il rappelle que la forte rentabilité d’Alphabet (Google) vient surtout de sa domination écrasante du marché de la recherche et des revenus publicitaires
  Les entreprises de l’IA parient qu’elles pourront elles aussi un jour convertir leurs parts de marché en chiffre d’affaires
  Si un effet de stickiness se crée, la conversion parts de marché → revenus pourrait tout à fait fonctionner
- Il affirme aussi que la hausse du cours de l’action peut, dans une certaine mesure, être elle-même un indicateur de rentabilité d’entreprise
  Il mentionne qu’Amazon a suivi une stratégie similaire pendant plus de 10 ans
À partir du chiffre d’une perte de 500 millions de dollars pour OpenAI en 2024 et de 500 millions de MAU, la logique selon laquelle « il suffirait de convertir 500 M d’utilisateurs gratuits à un ARPU annuel de 10 $ pour atteindre le point mort » lui paraît irréaliste
Si l’on faisait payer ne serait-ce que 1 $ aux utilisateurs gratuits, la majorité partirait probablement
Selon lui, le mot « simplement » simplifie excessivement la réalité
- En réalité, il ne s’agit pas de dire qu’il faudrait convertir ces utilisateurs en un abonnement à 1 $/mois, mais que faire tourner des LLM est devenu aujourd’hui très bon marché, au point qu’un modèle financé par la publicité pourrait suffire à être rentable
  Comparé à d’autres services de taille similaire reposant sur la publicité, le coût de revient des LLM est désormais bien plus faible, et l’abonnement n’est pas la seule réponse possible
- Convertir 500 millions de personnes en utilisateurs payants pourrait au contraire transformer radicalement les usages du service et sa structure de coûts, au point de faire exploser les dépenses
  On peut tout aussi bien poser l’hypothèse simple que si seulement 1 % des utilisateurs paient, cela représente déjà 1 milliard de dollars par an
- Il pense que si ces services fonctionnent à perte, c’est parce que la valeur des données utilisateur dépasse largement celle des abonnements
- Selon lui, il n’est pas nécessaire que tout le monde devienne payant : il suffit qu’une partie des utilisateurs payants subventionne les autres pour que le modèle tienne
Il prévoit qu’avec le temps, après concentration des parts de marché et arrivée de la régulation, les investisseurs imposeront la hausse des prix promise
- Ou bien les revenus viendront probablement de la publicité
  Quelle que soit la question posée, on pourrait voir une publicité Coca-Cola entre deux réponses
  Un projet de code généré par IA pourrait inclure des annonces automatiquement
  Une publicité pour une assurance pourrait être insérée dans un email sur dix rédigé par une IA
  Les possibilités de monétisation sont infinies
En interne, ils ont estimé le coût d’exploitation d’un LLM principalement à partir de la consommation électrique, et même en tenant compte de requêtes en rafale de la part des utilisateurs internes, le coût n’atteint qu’une dizaine de dollars par million de tokens
La charge serveur n’étant pas élevée, il y a selon lui encore beaucoup de marge pour réduire davantage les coûts à grande échelle
- Quelqu’un demande si ce calcul repose uniquement sur la consommation électrique
Il doute qu’on puisse comparer directement une réponse tokenisée de LLM et un résultat de moteur de recherche comme s’il s’agissait de la même unité
L’auteur compare 1 000 appels LLM (environ 1 million de tokens) à 1 000 requêtes de recherche, mais il soupçonne au départ une erreur potentielle d’un facteur 1 000
(Correction ultérieure : après avoir revu la méthode de l’auteur, il confirme qu’il s’agissait bien d’une comparaison de prix sur la base de 1 000 usages API, et qu’il s’agissait donc d’un malentendu)
- Il corrige en disant que l’auteur a bien comparé le prix unitaire de 1 000 appels LLM (1 million de tokens au total) à 1 000 appels de recherche
- Si Gemini 2.0 Flash coûte 0,4 $ pour 1 million de tokens et que l’API Bing Search coûte 15 $ pour 1 000 requêtes, alors le calcul donne un LLM 37 fois moins cher
Si l’on s’attend à de futurs gains d’efficacité et à une baisse des coûts de 100x, il se demande pourquoi on construit autant de nouveaux data centers dès maintenant
Peut-être qu’un simple cycle de renouvellement des machines permettrait déjà de tirer parti des data centers existants
Il évoque aussi la possibilité que la frénésie actuelle d’investissement soit en réalité une bulle
Il partage un article connexe de comparaison de performances
Lien
À ses yeux, si l’on ne regarde que le prix réel, cela reste cher
Et dans une situation de concurrence extrême pour les parts de marché, on ne peut pas interpréter les chiffres isolément