Le plafond de 1 500 dollars par mois imposé par Uber pour l’IA est un signal utile sur la tarification des outils d’IA
(simonwillison.net)- Uber plafonne à 1 500 dollars par mois les dépenses en tokens, par outil de codage IA, pour tous ses employés, afin de répondre à la hausse des coûts des outils de codage agentiques
- Le plafond s’applique uniquement aux logiciels de codage agentiques comme Cursor ou Claude Code, et les dépenses sur un outil n’affectent pas le budget des autres
- Uber a établi en 2025 son budget IA pour 2026, puis a épuisé ce budget 2026 en quatre mois à mesure que les agents de codage gros consommateurs de tokens ont gagné en popularité plus vite que prévu
- En supposant une utilisation active de deux outils, le plafond annuel par ingénieur atteint 36 000 dollars, soit environ 11 % de la rémunération médiane de 330 000 dollars des ingénieurs logiciels d’Uber aux États-Unis selon Levels.fyi
- Les prix des outils d’IA se sont fortement écartés entre les formules subventionnées pour abonnés individuels et les tarifs API réellement payés par les grandes entreprises, et le plafond d’Uber montre le niveau de coût qu’une entreprise peut absorber
Le plafond de dépenses d’Uber pour les outils de codage IA
- Uber plafonne à 1 500 dollars par mois les dépenses en tokens, par outil de codage IA, pour tous ses employés
- Ce plafond a été introduit ces derniers mois et ne s’applique qu’aux logiciels de codage agentiques comme Cursor ou Claude Code d’Anthropic
- Comme le plafond est défini par outil, les dépenses sur un outil ne réduisent pas le budget des autres
- Le plafond mensuel de 1 500 dollars est jugé raisonnable pour limiter les excès de dépenses, et apparaît plus pertinent qu’un classement de tokenmaxxing poussant les employés à rivaliser sur leur consommation d’IA
Signal tarifaire et calcul des coûts
- Le fait qu’Uber ait épuisé en quatre mois son budget IA 2026 s’inscrit dans un contexte où, lors de l’établissement du budget en 2025, il était difficile d’anticiper la popularité des agents de codage fortement consommateurs de tokens
- En supposant qu’un ingénieur utilise activement deux outils, le plafond atteint 3 000 dollars par mois, soit 36 000 dollars par an
- Le package annuel médian de rémunération des ingénieurs logiciels d’Uber aux États-Unis selon Levels.fyi est de 330 000 dollars, et le plafond annuel de 36 000 dollars représente environ 11 % de ce montant
- Pour un usage individuel, même en consommant chaque mois 1 000 dollars de tokens chez Anthropic et OpenAI, le coût actuel tombe à environ 100 dollars par fournisseur grâce aux formules subventionnées destinées aux abonnés individuels
- Ces formules individuelles subventionnées ne sont plus proposées aux grandes entreprises comme Uber, et avec les usages actuels, il resterait encore 500 dollars par mois par outil même en restant dans le plafond imposé par Uber
1 commentaires
Avis sur Hacker News
Je me demande si les acteurs de l’IA vont continuer à maintenir les prix par token actuels, ou s’ils finiront par les baisser à cause de la concurrence venue de Chine
Les particuliers avec des budgets limités migrent déjà vers des modèles chinois à poids ouverts comme DeepSeek
On peut aussi se demander si la Chine subventionne réellement ces entreprises, ou si le coût d’inférence est en fait bien plus faible et qu’Anthropic/OpenAI font simplement payer le maximum possible en vue d’une future IPO
Les laboratoires de pointe devront probablement baisser leurs prix par token, au moins pour les modèles d’entrée et de milieu de gamme. Les modèles chinois comme Qwen, DeepSeek, Kimi et GLM sont devenus « suffisamment proches » pour constituer des alternatives rentables avec le bon environnement d’exécution
Cela dit, certains modèles demandent plus de travail pour résoudre le même problème, donc il n’est peut-être pas nécessaire de combler totalement l’écart tout de suite
Malgré tout, les prix vont probablement baisser d’une manière ou d’une autre, et en même temps il est fort possible que les abonnements aux modèles chinois bon marché soient eux aussi subventionnés, donc qu’ils deviennent moins généreux avec le temps
Les prix par token baissent avec le temps sous l’effet de la pression concurrentielle ou parce que les clients sont incités à utiliser des modèles anciens et moins chers, alors que les datacenters sont financés par de la dette sur l’hypothèse que le chiffre d’affaires augmentera avec le temps
Pour reprendre sa formule, « [les entreprises d’IA] remboursent des coûts fixes avec un produit dont la valeur se déprécie »
D’un côté, les revenus liés aux tokens diminuent ; de l’autre, les coûts d’entraînement des prochains modèles frontier augmentent, tout en devant rembourser une dette sur 10 ans
0: https://youtu.be/wGZboZcSGDY?is=64GuKyqBh_4aSjTE
« Ce qui aggrave encore le problème, c’est que les laboratoires chinois publient souvent des modèles à double usage en poids ouverts. Une fois qu’un modèle est en poids ouverts, les garde-fous existants peuvent également être supprimés, ce qui le met à la disposition d’acteurs étatiques et non étatiques malveillants, y compris pour des usages abusifs cyber et CBRN que ces garde-fous visaient à empêcher »
https://www.anthropic.com/research/2028-ai-leadership
Je me demande quand les grandes entreprises réaliseront que les modèles flash sont largement suffisants à condition de respecter ceci
Même les grands modèles restent mauvais pour les gros changements, produisent des architectures douteuses, et de toute façon il faut relire le code dans tout projet sérieux
Quel que soit le modèle, si on n’y prête pas assez attention, la base de code devient vite un désastre
Dans un contexte où l’on itère en donnant des consignes, les modèles flash coûtent 10 fois moins cher et sont bien plus rapides ; on peut donc se demander pourquoi utiliser un grand modèle. Les grands modèles peuvent servir aux audits de sécurité et de bugs, et pour des changements de moins de 300 lignes, si on précise la forme de code voulue, un modèle flash se comporte presque de la même façon
Si ce chiffre augmente nettement, les entreprises commenceront probablement, comme vous le suggérez, à regarder davantage les modèles flash
Mais cela fait passer à côté d’un autre point essentiel ici : l’environnement d’exécution (harness). On fait tourner un pipeline autonome qui gère planification/conception/code/build/tests avec un orchestrateur maison, et on utilise des agents à plusieurs étapes
Chaque étape a un modèle qui lui convient mieux, et on évalue les artefacts entre étapes avec un LLM. Tout n’a pas besoin d’Opus 4.8
L’environnement d’exécution fournit la structure qui permet d’ajuster ce qu’il faut injecter dans le modèle et ce qu’il faut en extraire, ainsi que de définir quel modèle fait quel travail
Ce qui produit de la qualité avec un budget de tokens donné, ce n’est pas le modèle mais le pipeline
Ou peut-être qu’un grand modèle pourrait apprendre la différence entre les questions faciles et difficiles et facturer en conséquence. S’il peut mesurer la complexité, il pourrait même établir un devis
Les petits modèles suffisent pour les petites tâches de code, mais je ne vois pas bien pourquoi les grands modèles ne pourraient pas eux aussi découper la plupart des tâches en sous-problèmes
C’est devenu un problème d’ingénierie, et on le refile aux ingénieurs pour qu’ils le règlent
Je ne comprends toujours pas pourquoi autant de gens pensent que le coding IA va juste passer comme une mode
Cela fait moins de deux ans que ça a commencé, et les entreprises paient déjà des milliers de dollars par siège ; je connais même des endroits qui montent à 50 $ par mois
Je me demande quel autre outil, parti de rien, a été adopté aussi vite
Les pull requests d’IA LLM qu’on voit aujourd’hui ne font que créer plus de travail pour les autres, et ces soi-disant « builders » ont surtout l’air bien avec leurs nouveaux dashboards et leurs fonctionnalités à montrer en démo
Mais on ne peut pas discuter du flux du code avec eux, ni leur demander quel a été le raisonnement derrière tel ou tel choix
Ce n’est pas quelque chose construit depuis la base à partir de l’expérience accumulée de plusieurs personnes ; ça apparaît comme matérialisé à partir de rien, sans séparation de base et avec très peu d’abstraction
Personne n’a envie d’y toucher. Les pull requests sont énormes, et leurs « auteurs » ne prennent même pas l’astreinte avec nous
Ils prennent toute la gloire, mais ne font pas le vrai travail
C’est un peu comme concevoir une maison puis l’envoyer à des architectes et des ingénieurs en leur disant : « Faites en sorte que ça marche »
Il existe bien des explications plus rationnelles au comportement de ces entreprises que « le coding IA n’est pas une mode »
Les pull requests sont trop grosses, personne ne peut relire ce bazar, et si vous les déployez, il faut être prêt à prendre l’astreinte
Ça peut s’améliorer, ou pas ; pour l’instant, on n’en sait rien
C’est trop gros et trop rapide pour paraître stable. Ce niveau peut se maintenir, augmenter encore, ou redescendre vers un niveau d’usage et de budget plus normal
J’utilise un abonnement à 100 $ par mois, mais sur les 30 derniers jours, mes coûts API tournent autour de 100 $ par mois
Ça varie énormément selon la manière de l’utiliser. Si on produit une conception détaillée via des prompts, qu’on la découpe en liste de tâches, puis qu’on l’envoie à plusieurs agents, on peut brûler des milliers de dollars très facilement
En l’utilisant plus prudemment, avec seulement quelques agents en interaction à la fois, et pour la revue de pull requests, la résolution d’issues, le nettoyage automatique, l’optimisation des performances, etc., on peut être autour de 100 $
Si c’est juste pour poser des questions ponctuelles comme à une meilleure version de Stack Overflow, on est très largement sous les 100 $
En ce moment, je suis accro à
/goal: trouver un objectif vérifiable, le laisser tourner toute la nuit, puis voir le matin où il en est, c’est comme le matin de Noël100 $ par mois, c’est 180 $ par an par siège
Je me demande si Microsoft et Nvidia n’ont pas vu quelque chose
Même une machine à 128 Go capable de faire tourner un LLM local à 50–80 $ semble bon marché. Le nombre de tokens par seconde n’est pas encore suffisant, mais ça pourrait passer
Le vrai goulot d’étranglement, ce n’est pas le code, mais ce qu’Uber a réellement construit avec tout cet argent, et quel impact positif et significatif cela a eu sur le chiffre d’affaires
Personnellement, en dessous de 50 tok/s, c’est totalement inutilisable
De toute façon, on compare aussi des choses qui ne sont pas comparables. L’inférence de modèles à poids ouverts est assez bon marché, et Claude comme OpenAI peuvent simplement prendre des marges très élevées par rapport à DeepSeek ou aux nombreux fournisseurs sur OpenRouter. Les modèles ouverts sont des commodités
Un laptop est un actif amortissable, sans économies d’échelle, avec des spécifications figées, et ça conduit à un parc fragmenté qu’il faut maintenir à jour côté modèles
Si on ajoute la consommation électrique et le refroidissement, je ne vois vraiment pas pourquoi des entreprises iraient dans cette direction
Le matériel local devient coûteux quand il faut faire tourner une pile logicielle complexe qui peut casser de 100 façons différentes
Les futurs serveurs IA locaux communiqueront probablement juste via un protocole quelconque pour l’IA, resteront posés dans un coin, et personne n’y pensera vraiment
Après, il faudra peut-être quand même des accès à plusieurs systèmes, donc je ne sais pas, mais au final quelqu’un proposera sans doute une « IA dans une boîte » avec des modèles ouverts de pointe ou quelque chose du genre
Cela équivaut à générer au minimum 20 tok/s, 24 h/24 et 365 jours par an, et en réalité ce sera probablement bien plus
Les modèles à poids ouverts sont bien moins chers que les modèles propriétaires, même lorsqu’ils sont proposés via des fournisseurs occidentaux réputés ; donc pour atteindre le même niveau de dépense, il peut falloir plus de 100 tok/s, ce qui nous fait entrer dans le domaine du matériel de datacenter
On peut peut-être atteindre les chiffres du premier cas sur des plateformes prosumer, mais uniquement avec des charges de travail très spécifiques. Pour les charges de travail de type agent, où l’on passe souvent beaucoup de temps sur le prefill, les perspectives sont encore moins bonnes. C’est une contrainte majeure pour l’IA on-premise
Si les ingénieurs utilisent correctement les outils d’IA, cela peut fortement augmenter leur productivité, et on peut utiliser les LLM comme des ingénieurs juniors ou associés
100 $ par mois, c’est bien moins cher qu’un tel niveau de productivité, et employer un ingénieur humain aurait coûté bien davantage
L’effet de verrouillage et les coûts de changement commencent à vraiment m’inquiéter
J’utilise Claude depuis environ un an, et j’y ai accumulé pas mal de « connaissances »
Si le rapport qualité-prix de Claude devient moins bon à l’avenir, ça risque de me poser problème
J’ai commencé à réfléchir à des solutions distribuées qui séparent le stockage de l’inférence, mais pour l’instant Claude reste le choix par défaut. Je me demande si d’autres ont les mêmes inquiétudes
Elles sont stockées où ?
Chez moi, les connaissances sont généralement stockées dans des documents de planification hors de l’agent
Et de toute façon, j’archive régulièrement chaque fenêtre d’agent
Si un employé n’utilise pas son budget IA/LLM, est-ce qu’il peut avoir une augmentation à la place ?
Je ne comprends pas pourquoi il n’est pas plus courant, dans les grandes entreprises, de s’auto-héberger pour faire tourner des modèles à poids ouverts, ou au minimum de louer des serveurs GPU, voire de les faire héberger par quelqu’un comme Together AI
J’ai utilisé des modèles à poids ouverts ainsi que des modèles premium comme Opus et Gemini Pro ; ces derniers sont un peu meilleurs, mais absolument pas au point de justifier l’écart de prix
Pour les usages que j’ai testés, la différence n’avait généralement pas beaucoup d’importance, et j’imagine que beaucoup d’autres utilisateurs ont des cas d’usage similaires
Donner à d’excellents développeurs/hackers un gros serveur GPU et les laisser faire tourner les modèles qu’ils veulent, ce n’est pas du tout la même chose que maintenir une telle plateforme pour l’ensemble de l’entreprise
Il faut du personnel capable de comprendre et maintenir ces modèles, le backend, la disponibilité, etc., et ces profils coûtent généralement bien plus cher que des développeurs logiciels classiques
À cause de cette complexité supplémentaire, il est plus simple de payer des laboratoires externes de tout premier plan et d’appliquer à chacun un plafond de dépenses raisonnable
L’utilisation de ce type d’énormes racks ne sera pas de 24 h/24, 7 j/7, et en général l’organisation n’est pas assez centrée GPU pour entraîner des modèles avec le calcul inutilisé
Si le coût est de 100 000 à 200 000 dollars ou plus, avec une durée de vie d’environ deux ans, c’est difficile à justifier financièrement
Même en amortissant l’auto-hébergement sur plusieurs développeurs, on arrive facilement à environ 1 000 dollars par mois, avec des limites de débit sévères aux heures de pointe
Est-ce que les 500 dollars restants, entre 1 500 et 1 000 dollars par mois, justifient une baisse de 10 % de la « productivité IA » ? Dans la plupart des cas, je dirais que non
À court terme, sauf excellente raison d’auto-héberger absolument un modèle d’assistance au code, je dirais que les 2 ou 3 meilleurs fournisseurs d’assistants de code sont un meilleur choix
Personne n’a été licencié pour avoir acheté une licence Claude Code
Rien que mutualiser des GPU pour plusieurs utilisateurs, tout en respectant les contrôles de sécurité et en les connectant à la documentation et aux data lakes, n’a rien de simple
Au final, il faut payer une équipe pour gérer tout ça
Il faut du matériel dédié dans un datacenter et des spécialistes pour l’exploiter
L’entreprise doit trouver comment gérer, en plus de son activité principale, les achats, les actifs, les coûts et mille autres choses
Et qui a déjà résolu tout ça ? AWS, Azure, OpenAI, etc.
Entretenir le matériel et recruter des experts de l’exploitation de services, ça coûte de l’argent
Pour quelque chose d’aussi courant qu’un modèle LLM, à moins d’être une entreprise extrêmement sensible au simple fait d’envoyer des octets vers AWS, il n’y a aucune raison de fournir le modèle sur son propre matériel
Plus que le chiffre d’un plafond de 1 500 dollars par mois, ce qui est intéressant, c’est le fait qu’ils aient effectivement fixé un plafond
La plupart des équipes d’ingénierie avec lesquelles j’ai parlé ne savent pas combien elles dépensent en IA par développeur, parce que c’est noyé dans une facture cloud consolidée
Un plafond strict force deux conversations utiles : quels workflows justifient des appels API et lesquels peuvent se contenter d’inférence locale, et si les résultats sont réellement comparés à des indicateurs de productivité
Sans cette boucle de rétroaction, cela devient juste une course pour voir qui brûle le plus vite des tokens
Anthropic : https://support.claude.com/en/articles/12883420-view-usage-a...
OpenAI : https://help.openai.com/en/articles/10875114-workspace-analy...
L’enchaînement entre « un plafond de 1 500 dollars par mois et par outil semble être une réponse politique raisonnable à la surconsommation » et « ma consommation de tokens tourne autour de 1 000 dollars par mois chez Anthropic et OpenAI respectivement, mais grâce à un plan subventionné généreux pour les abonnés individuels, je ne paie actuellement que 100 dollars par fournisseur » donne une impression de système de vente multiniveau
On dirait une structure où les “diamants” gagnent de l’argent en faisant la promotion du MLM dans des séminaires, puis disent à ceux qui espèrent percer tout en bas que « souscrire un abonnement IA maintenant est l’unique chance dans une vie de devenir un gagnant »
Je me demande s’il n’y a pas quelque chose dans le MLM vs LLM qui déclenche ce FOMO