Le prix des tokens devient de plus en plus élevé

(ethanding.substack.com)

13 points par GN⁺ 2025-08-04 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Contrairement à l’idée que le coût des tokens des LLM baisse d’un facteur 10 chaque année, les services d’abonnement IA voient leur rentabilité se dégrader de plus en plus
La demande pour les derniers modèles de LLM se concentre toujours sur les modèles SOTA (State-of-the-art), si bien que la baisse de prix des modèles « anciens » ne se traduit pas réellement par une réduction des coûts
À mesure que les performances des modèles augmentent, le volume de tokens utilisés croît de façon exponentielle, ce qui compense la baisse du prix unitaire et fait au contraire exploser les coûts globaux
Les expérimentations d’offres d’abonnement illimitées (ex. : Claude Code à 200 $/mois) sont elles aussi intenables à cause de l’explosion de consommation des gros utilisateurs
En dehors d’une facturation à l’usage, il n’existe pas de modèle durable à long terme, mais son adoption concrète reste difficile à cause de la concurrence entre startups et de la résistance des consommateurs
Sans transition vers un modèle de revenus durable, la plupart des startups finiront par faire face à un risque de faillite

Abonnements IA : pourquoi les pertes augmentent malgré la baisse du prix unitaire des tokens

L’illusion de la baisse des prix des LLM

Les fondateurs ont cru au playbook des VC : « le prix unitaire des tokens va baisser d’un facteur 10, il suffit de tenir un peu et l’on passera à une structure à forte marge », et ont donc lancé au départ des abonnements au prix coûtant, voire à perte
En pratique, le prix unitaire des tokens de modèles anciens comme GPT-3.5 a bien chuté de plus de 10x, mais la demande des utilisateurs et du marché se porte toujours sur les modèles les plus récents et les plus performants (SOTA)
En réalité, après 18 mois, les marges ne se sont pas améliorées et se sont même dégradées
Les baisses de prix des anciens modèles ne se ressentent que pour des produits déjà hors de l’attention du marché, comme un « journal d’hier »

Le prix et la structure de la demande pour les modèles les plus récents

GPT-4, Claude 3 Opus et autres modèles récents sont toujours lancés à des prix élevés comparables, et même si les anciens modèles deviennent très bon marché, leur usage réel reste marginal
Les utilisateurs ne veulent que le « meilleur niveau de performance » ; les « anciens modèles bon marché » ne valent guère mieux, sur ce marché, que de vieilles voitures d’occasion
Ce que l’on cherche réellement avec l’IA, ce sont les meilleurs résultats ; il est donc rare que les utilisateurs choisissent volontairement un ancien modèle pour économiser
Au final, pour rester compétitif sur le marché, il faut toujours proposer le modèle le plus récent et le plus cher, ce qui maintient durablement les coûts
- C’est comme si, même si le prix des voitures d’occasion des années 1990 baissait, les consommateurs continuaient malgré tout à acheter des voitures neuves

L’explosion de l’usage des tokens

À mesure que les performances des modèles progressent, le nombre de tokens consommés par une seule tâche augmente de façon exponentielle
Une tâche qui se terminait autrefois avec 1 000 tokens peut désormais en consommer 100 000
Autrefois, une question d’une phrase appelait une réponse d’une phrase ; aujourd’hui, avec des recherches complexes, des boucles et de l’orchestration, l’IA peut fonctionner en continu pendant 10 à 20 minutes et consommer d’énormes volumes de tokens
En demandant à l’IA des recherches et analyses plus poussées, on arrive à des scénarios du type « 20 minutes par exécution, 24 heures sur 24 », ce qui fait bondir la consommation quotidienne moyenne par utilisateur
- Par exemple, même une seule utilisation quotidienne d’une fonction de « deep research » coûtant 1 $ n’est déjà pas rentable avec un abonnement à 20 $
La baisse du prix unitaire est annulée par l’augmentation de la consommation totale de tokens, au point qu’un forfait à 20 $/mois ne peut même plus absorber une tâche à 1 $ par jour

L’échec des forfaits illimités

Des offres comme Claude Code à 200 $/mois en illimité, l’optimisation automatique des tokens ou l’utilisation du PC de l’utilisateur ont été testées comme différentes mesures de réduction des coûts
Mais certains power users ont approché les 10 milliards de tokens par mois (soit l’équivalent de 12 500 exemplaires de Guerre et Paix), car ils ont utilisé l’automatisation, les tâches répétitives et les boucles pour faire exploser leur consommation
- « L’usage de l’IA s’est dissocié du temps humain, et les API tournent 24 h/24 avec une explosion des tokens »
Malgré l’innovation technique, l’offre a finalement été revue en arrière
Conclusion : le modèle d’abonnement illimité est désormais impossible ; l’équation économique ne tient tout simplement plus

Le dilemme auquel toute l’industrie est confrontée

S’obstiner dans le modèle par abonnement accroît le risque de dégradation de la rentabilité et d’effondrement
Les entreprises d’IA savent toutes que seule la facturation à l’usage (usage-based pricing) est une réponse viable, mais l’arrivée d’un concurrent sur abonnement fait peser un risque élevé de fuite des utilisateurs
Cette structure de « dilemme du prisonnier » pousse tout le monde dans une course aux subventions pour power users
Cursor, Replit et d’autres adoptent eux aussi une logique de « croissance d’abord, rentabilité plus tard », mais devront tôt ou tard affronter ce problème de rentabilité, avec des restructurations inévitables à la clé

Trois pistes de solution réalistes

1. La facturation à l’usage
- En adoptant dès le départ un modèle économique honnête, il devient possible de concevoir une structure de revenus qui ne passe pas sous le coût de revient. À long terme, c’est le seul modèle réellement durable
- En revanche, les consommateurs rejettent fortement les tarifs au compteur, ce qui limite les chances de succès grand public
2. Cibler le marché entreprise avec de forts coûts de changement
- En s’adressant à des clients enterprise avec des coûts de changement élevés (ex. : grands groupes, institutions financières), une fois l’entrée réalisée, il devient presque impossible de résilier, et les marges sont élevées
- Les domaines des systèmes of record (SOR, CRM/ERP/EHR, etc.) en sont l’exemple type (ex. : déploiement chez Goldman Sachs pour 40 000 ingénieurs)
3. Créer de la valeur via l’intégration verticale (Vertical Integration)
- Comme Replit, on peut proposer l’inférence LLM elle-même comme un « produit d’appel » déficitaire, puis générer des revenus grâce aux services construits au-dessus : hosting, base de données, déploiement, monitoring, etc.
- L’objectif est de faire croître l’usage de l’IA pour l’amener vers le marché de l’infrastructure
À l’avenir, le prix unitaire des tokens continuera sans doute de baisser, mais les attentes des utilisateurs et leur niveau d’usage augmenteront eux aussi de façon exponentielle
Les entreprises qui s’en tiennent uniquement à une stratégie abonnement + croissance risquent au final d’avoir droit à des « funérailles à coût élevé »

Résumé

L’optimisme du type « l’an prochain les tokens seront 10 fois moins chers » ne suffit pas à faire tenir un business
- Les utilisateurs exigent toujours davantage, en qualité comme en volume d’usage
La formule progrès des modèles = explosion de l’usage = hausse des coûts est désormais bien réelle ; un business IA durable devra donc basculer vers une nouvelle structure fondée sur la facturation à l’usage, les grands contrats enterprise ou l’intégration verticale
- Pour assurer la continuité de l’activité, une nouvelle approche structurelle comme la stratégie de « néo-cloud » devient nécessaire

Le prix des tokens devient de plus en plus élevé

Abonnements IA : pourquoi les pertes augmentent malgré la baisse du prix unitaire des tokens

L’illusion de la baisse des prix des LLM

Le prix et la structure de la demande pour les modèles les plus récents

L’explosion de l’usage des tokens

L’échec des forfaits illimités

Le dilemme auquel toute l’industrie est confrontée

Trois pistes de solution réalistes

Résumé

À lire aussi

Aucun commentaire pour le moment.