Le plafond de 1 500 dollars par mois imposé par Uber pour l’IA est un signal utile sur la tarification des outils d’IA

(simonwillison.net)

4 points par GN⁺ 2026-06-04 | 1 commentaires | Partager sur WhatsApp

Uber plafonne à 1 500 dollars par mois les dépenses en tokens, par outil de codage IA, pour tous ses employés, afin de répondre à la hausse des coûts des outils de codage agentiques
Le plafond s’applique uniquement aux logiciels de codage agentiques comme Cursor ou Claude Code, et les dépenses sur un outil n’affectent pas le budget des autres
Uber a établi en 2025 son budget IA pour 2026, puis a épuisé ce budget 2026 en quatre mois à mesure que les agents de codage gros consommateurs de tokens ont gagné en popularité plus vite que prévu
En supposant une utilisation active de deux outils, le plafond annuel par ingénieur atteint 36 000 dollars, soit environ 11 % de la rémunération médiane de 330 000 dollars des ingénieurs logiciels d’Uber aux États-Unis selon Levels.fyi
Les prix des outils d’IA se sont fortement écartés entre les formules subventionnées pour abonnés individuels et les tarifs API réellement payés par les grandes entreprises, et le plafond d’Uber montre le niveau de coût qu’une entreprise peut absorber

Le plafond de dépenses d’Uber pour les outils de codage IA

Uber plafonne à 1 500 dollars par mois les dépenses en tokens, par outil de codage IA, pour tous ses employés
Ce plafond a été introduit ces derniers mois et ne s’applique qu’aux logiciels de codage agentiques comme Cursor ou Claude Code d’Anthropic
Comme le plafond est défini par outil, les dépenses sur un outil ne réduisent pas le budget des autres
Le plafond mensuel de 1 500 dollars est jugé raisonnable pour limiter les excès de dépenses, et apparaît plus pertinent qu’un classement de tokenmaxxing poussant les employés à rivaliser sur leur consommation d’IA

Signal tarifaire et calcul des coûts

Le fait qu’Uber ait épuisé en quatre mois son budget IA 2026 s’inscrit dans un contexte où, lors de l’établissement du budget en 2025, il était difficile d’anticiper la popularité des agents de codage fortement consommateurs de tokens
En supposant qu’un ingénieur utilise activement deux outils, le plafond atteint 3 000 dollars par mois, soit 36 000 dollars par an
Le package annuel médian de rémunération des ingénieurs logiciels d’Uber aux États-Unis selon Levels.fyi est de 330 000 dollars, et le plafond annuel de 36 000 dollars représente environ 11 % de ce montant
Pour un usage individuel, même en consommant chaque mois 1 000 dollars de tokens chez Anthropic et OpenAI, le coût actuel tombe à environ 100 dollars par fournisseur grâce aux formules subventionnées destinées aux abonnés individuels
Ces formules individuelles subventionnées ne sont plus proposées aux grandes entreprises comme Uber, et avec les usages actuels, il resterait encore 500 dollars par mois par outil même en restant dans le plafond imposé par Uber

1 commentaires

GN⁺ 2026-06-04

Avis sur Hacker News

Je me demande si les acteurs de l’IA vont continuer à maintenir les prix par token actuels, ou s’ils finiront par les baisser à cause de la concurrence venue de Chine
Les particuliers avec des budgets limités migrent déjà vers des modèles chinois à poids ouverts comme DeepSeek
On peut aussi se demander si la Chine subventionne réellement ces entreprises, ou si le coût d’inférence est en fait bien plus faible et qu’Anthropic/OpenAI font simplement payer le maximum possible en vue d’une future IPO
- Comme plusieurs modèles sont à poids ouverts et proposés aussi par des prestataires tiers qui n’ont aucune raison de les subventionner, on sait dans une certaine mesure que leur coût d’inférence est assez bas pour être proche du coût réel
  Les laboratoires de pointe devront probablement baisser leurs prix par token, au moins pour les modèles d’entrée et de milieu de gamme. Les modèles chinois comme Qwen, DeepSeek, Kimi et GLM sont devenus « suffisamment proches » pour constituer des alternatives rentables avec le bon environnement d’exécution
  Cela dit, certains modèles demandent plus de travail pour résoudre le même problème, donc il n’est peut-être pas nécessaire de combler totalement l’écart tout de suite
  Malgré tout, les prix vont probablement baisser d’une manière ou d’une autre, et en même temps il est fort possible que les abonnements aux modèles chinois bon marché soient eux aussi subventionnés, donc qu’ils deviennent moins généreux avec le temps
- Un aspect est ce que Paul Kedrosky a récemment appelé le duration mismatch
  Les prix par token baissent avec le temps sous l’effet de la pression concurrentielle ou parce que les clients sont incités à utiliser des modèles anciens et moins chers, alors que les datacenters sont financés par de la dette sur l’hypothèse que le chiffre d’affaires augmentera avec le temps
  Pour reprendre sa formule, « [les entreprises d’IA] remboursent des coûts fixes avec un produit dont la valeur se déprécie »
  D’un côté, les revenus liés aux tokens diminuent ; de l’autre, les coûts d’entraînement des prochains modèles frontier augmentent, tout en devant rembourser une dette sur 10 ans
  0: https://youtu.be/wGZboZcSGDY?is=64GuKyqBh_4aSjTE
- Pas d’inquiétude, ils n’auront qu’à faire du lobbying pour interdire les modèles chinois afin de préserver les revenus tirés des tokens
  « Ce qui aggrave encore le problème, c’est que les laboratoires chinois publient souvent des modèles à double usage en poids ouverts. Une fois qu’un modèle est en poids ouverts, les garde-fous existants peuvent également être supprimés, ce qui le met à la disposition d’acteurs étatiques et non étatiques malveillants, y compris pour des usages abusifs cyber et CBRN que ces garde-fous visaient à empêcher »
  https://www.anthropic.com/research/2028-ai-leadership
- Ils ont plutôt des chances de les augmenter. NVidia a dit que les prix du matériel GPU ne baisseraient pas au moins jusqu’en 2030, et il y a un manque mondial de capacité de production des fabs
- La plupart des entreprises américaines normales interdiront l’usage via le cloud d’entreprises chinoises d’IA. Le code, les données et les informations personnelles leur seraient tous transmis
Je me demande quand les grandes entreprises réaliseront que les modèles flash sont largement suffisants à condition de respecter ceci
1. ne pas demander de gros changements au LLM
2. relire tous les résultats et lui indiquer la bonne direction
  Même les grands modèles restent mauvais pour les gros changements, produisent des architectures douteuses, et de toute façon il faut relire le code dans tout projet sérieux
  Quel que soit le modèle, si on n’y prête pas assez attention, la base de code devient vite un désastre
  Dans un contexte où l’on itère en donnant des consignes, les modèles flash coûtent 10 fois moins cher et sont bien plus rapides ; on peut donc se demander pourquoi utiliser un grand modèle. Les grands modèles peuvent servir aux audits de sécurité et de bugs, et pour des changements de moins de 300 lignes, si on précise la forme de code voulue, un modèle flash se comporte presque de la même façon
- C’est assez simple. Les organisations sont prêtes à absorber une dépense de 1 500 dollars par mois et par ingénieur, et cela semble correspondre grosso modo à un niveau d’usage « normal » pour la plupart des ingénieurs à temps plein
  Si ce chiffre augmente nettement, les entreprises commenceront probablement, comme vous le suggérez, à regarder davantage les modèles flash
- Utiliser le dernier modèle le plus puissant qu’on peut se permettre est une décision facile
  Mais cela fait passer à côté d’un autre point essentiel ici : l’environnement d’exécution (harness). On fait tourner un pipeline autonome qui gère planification/conception/code/build/tests avec un orchestrateur maison, et on utilise des agents à plusieurs étapes
  Chaque étape a un modèle qui lui convient mieux, et on évalue les artefacts entre étapes avec un LLM. Tout n’a pas besoin d’Opus 4.8
  L’environnement d’exécution fournit la structure qui permet d’ajuster ce qu’il faut injecter dans le modèle et ce qu’il faut en extraire, ainsi que de définir quel modèle fait quel travail
  Ce qui produit de la qualité avec un budget de tokens donné, ce n’est pas le modèle mais le pipeline
- Je me demande dans quelle mesure le modèle devrait décider lui-même vers quel autre modèle rediriger une requête
  Ou peut-être qu’un grand modèle pourrait apprendre la différence entre les questions faciles et difficiles et facturer en conséquence. S’il peut mesurer la complexité, il pourrait même établir un devis
  Les petits modèles suffisent pour les petites tâches de code, mais je ne vois pas bien pourquoi les grands modèles ne pourraient pas eux aussi découper la plupart des tâches en sous-problèmes
- Je suis tout à fait d’accord. Les modèles plus gros ont aussi tendance à surcomplexifier les choses
- « Ne pas demander de gros changements au LLM » et « tout relire et lui donner la direction » sont des choses dont la direction ne se soucie pas
  C’est devenu un problème d’ingénierie, et on le refile aux ingénieurs pour qu’ils le règlent
Je ne comprends toujours pas pourquoi autant de gens pensent que le coding IA va juste passer comme une mode
Cela fait moins de deux ans que ça a commencé, et les entreprises paient déjà des milliers de dollars par siège ; je connais même des endroits qui montent à 50 $ par mois
Je me demande quel autre outil, parti de rien, a été adopté aussi vite
- C’est parce que les entreprises parient qu’en dépensant ça, elles pourront licencier des gens et réduire leurs coûts
  Les pull requests d’IA LLM qu’on voit aujourd’hui ne font que créer plus de travail pour les autres, et ces soi-disant « builders » ont surtout l’air bien avec leurs nouveaux dashboards et leurs fonctionnalités à montrer en démo
  Mais on ne peut pas discuter du flux du code avec eux, ni leur demander quel a été le raisonnement derrière tel ou tel choix
  Ce n’est pas quelque chose construit depuis la base à partir de l’expérience accumulée de plusieurs personnes ; ça apparaît comme matérialisé à partir de rien, sans séparation de base et avec très peu d’abstraction
  Personne n’a envie d’y toucher. Les pull requests sont énormes, et leurs « auteurs » ne prennent même pas l’astreinte avec nous
  Ils prennent toute la gloire, mais ne font pas le vrai travail
  C’est un peu comme concevoir une maison puis l’envoyer à des architectes et des ingénieurs en leur disant : « Faites en sorte que ça marche »
- Ça ne mène pas à cette conclusion. Le fait que « les entreprises paient déjà des milliers de dollars par siège » n’a aucune corrélation avec le fait que quelque chose soit une mode ou non
  Il existe bien des explications plus rationnelles au comportement de ces entreprises que « le coding IA n’est pas une mode »
- Les résultats du vibe coding sont parfois excellents, mais parfois ils cassent quelque chose, et il leur arrive même de re-casser des trucs déjà corrigés plusieurs fois
  Les pull requests sont trop grosses, personne ne peut relire ce bazar, et si vous les déployez, il faut être prêt à prendre l’astreinte
  Ça peut s’améliorer, ou pas ; pour l’instant, on n’en sait rien
- Pour moi, ces faits sont plutôt un signal que la réalité peut être différente de ce qu’elle semble être
  C’est trop gros et trop rapide pour paraître stable. Ce niveau peut se maintenir, augmenter encore, ou redescendre vers un niveau d’usage et de budget plus normal
- Entre « le coding IA est une mode » et « on donne des tokens illimités à tous les employés sans même se soucier de savoir si l’effet net est positif financièrement », il existe un large spectre
J’utilise un abonnement à 100 $ par mois, mais sur les 30 derniers jours, mes coûts API tournent autour de 100 $ par mois
Ça varie énormément selon la manière de l’utiliser. Si on produit une conception détaillée via des prompts, qu’on la découpe en liste de tâches, puis qu’on l’envoie à plusieurs agents, on peut brûler des milliers de dollars très facilement
En l’utilisant plus prudemment, avec seulement quelques agents en interaction à la fois, et pour la revue de pull requests, la résolution d’issues, le nettoyage automatique, l’optimisation des performances, etc., on peut être autour de 100 $
Si c’est juste pour poser des questions ponctuelles comme à une meilleure version de Stack Overflow, on est très largement sous les 100 $
En ce moment, je suis accro à /goal : trouver un objectif vérifiable, le laisser tourner toute la nuit, puis voir le matin où il en est, c’est comme le matin de Noël
100 $ par mois, c’est 180 $ par an par siège
Je me demande si Microsoft et Nvidia n’ont pas vu quelque chose
Même une machine à 128 Go capable de faire tourner un LLM local à 50–80 $ semble bon marché. Le nombre de tokens par seconde n’est pas encore suffisant, mais ça pourrait passer
Le vrai goulot d’étranglement, ce n’est pas le code, mais ce qu’Uber a réellement construit avec tout cet argent, et quel impact positif et significatif cela a eu sur le chiffre d’affaires
- Je ne suis pas sûr que les tokens par seconde ne soient pas le goulot d’étranglement. La plupart des gens utiliseront probablement encore les agents IA de manière interactive plutôt qu’en les laissant tourner seuls toute la nuit
  Personnellement, en dessous de 50 tok/s, c’est totalement inutilisable
  De toute façon, on compare aussi des choses qui ne sont pas comparables. L’inférence de modèles à poids ouverts est assez bon marché, et Claude comme OpenAI peuvent simplement prendre des marges très élevées par rapport à DeepSeek ou aux nombreux fournisseurs sur OpenRouter. Les modèles ouverts sont des commodités
- Il vaut largement mieux faire tourner un modèle on-premise dédié
  Un laptop est un actif amortissable, sans économies d’échelle, avec des spécifications figées, et ça conduit à un parc fragmenté qu’il faut maintenir à jour côté modèles
  Si on ajoute la consommation électrique et le refroidissement, je ne vois vraiment pas pourquoi des entreprises iraient dans cette direction
- Les entreprises finiront probablement par acheter des serveurs IA locaux
  Le matériel local devient coûteux quand il faut faire tourner une pile logicielle complexe qui peut casser de 100 façons différentes
  Les futurs serveurs IA locaux communiqueront probablement juste via un protocole quelconque pour l’IA, resteront posés dans un coin, et personne n’y pensera vraiment
  Après, il faudra peut-être quand même des accès à plusieurs systèmes, donc je ne sais pas, mais au final quelqu’un proposera sans doute une « IA dans une boîte » avec des modèles ouverts de pointe ou quelque chose du genre
- Je suis d’accord avec l’argument de base, mais faire tourner pour 100 $ par mois d’IA locale de pointe n’est déjà pas trivial, et le fait que ce soit par siège est aussi important
  Cela équivaut à générer au minimum 20 tok/s, 24 h/24 et 365 jours par an, et en réalité ce sera probablement bien plus
  Les modèles à poids ouverts sont bien moins chers que les modèles propriétaires, même lorsqu’ils sont proposés via des fournisseurs occidentaux réputés ; donc pour atteindre le même niveau de dépense, il peut falloir plus de 100 tok/s, ce qui nous fait entrer dans le domaine du matériel de datacenter
  On peut peut-être atteindre les chiffres du premier cas sur des plateformes prosumer, mais uniquement avec des charges de travail très spécifiques. Pour les charges de travail de type agent, où l’on passe souvent beaucoup de temps sur le prefill, les perspectives sont encore moins bonnes. C’est une contrainte majeure pour l’IA on-premise
- À mon avis, le point clé n’est pas forcément ce qu’Uber a construit, mais le gain de productivité
  Si les ingénieurs utilisent correctement les outils d’IA, cela peut fortement augmenter leur productivité, et on peut utiliser les LLM comme des ingénieurs juniors ou associés
  100 $ par mois, c’est bien moins cher qu’un tel niveau de productivité, et employer un ingénieur humain aurait coûté bien davantage
L’effet de verrouillage et les coûts de changement commencent à vraiment m’inquiéter
J’utilise Claude depuis environ un an, et j’y ai accumulé pas mal de « connaissances »
Si le rapport qualité-prix de Claude devient moins bon à l’avenir, ça risque de me poser problème
J’ai commencé à réfléchir à des solutions distribuées qui séparent le stockage de l’inférence, mais pour l’instant Claude reste le choix par défaut. Je me demande si d’autres ont les mêmes inquiétudes
- Cette « connaissance », ce n’est pas juste des fichiers texte ? J’ai toujours pu passer facilement d’un service à l’autre simplement en copiant des fichiers texte
- La solution que je préfère, c’est d’utiliser l’agent de coding Cline. C’est ouvert, et on peut facilement changer de fournisseur ou de modèle
- Je ne vois pas trop ce que sont ces connaissances
  Elles sont stockées où ?
  Chez moi, les connaissances sont généralement stockées dans des documents de planification hors de l’agent
  Et de toute façon, j’archive régulièrement chaque fenêtre d’agent
Si un employé n’utilise pas son budget IA/LLM, est-ce qu’il peut avoir une augmentation à la place ?
- Il sera probablement licencié pour sous-performance
Je ne comprends pas pourquoi il n’est pas plus courant, dans les grandes entreprises, de s’auto-héberger pour faire tourner des modèles à poids ouverts, ou au minimum de louer des serveurs GPU, voire de les faire héberger par quelqu’un comme Together AI
J’ai utilisé des modèles à poids ouverts ainsi que des modèles premium comme Opus et Gemini Pro ; ces derniers sont un peu meilleurs, mais absolument pas au point de justifier l’écart de prix
Pour les usages que j’ai testés, la différence n’avait généralement pas beaucoup d’importance, et j’imagine que beaucoup d’autres utilisateurs ont des cas d’usage similaires
- Nous venons justement d’avoir une discussion similaire à mon $WORK ; c’est une entreprise financière traditionnelle cotée au NYSE, avec un niveau d’expertise IT plutôt moyen, et je pense que le raisonnement est le suivant
  Donner à d’excellents développeurs/hackers un gros serveur GPU et les laisser faire tourner les modèles qu’ils veulent, ce n’est pas du tout la même chose que maintenir une telle plateforme pour l’ensemble de l’entreprise
  Il faut du personnel capable de comprendre et maintenir ces modèles, le backend, la disponibilité, etc., et ces profils coûtent généralement bien plus cher que des développeurs logiciels classiques
  À cause de cette complexité supplémentaire, il est plus simple de payer des laboratoires externes de tout premier plan et d’appliquer à chacun un plafond de dépenses raisonnable
- Même si les modèles premium ne sont que 10 % meilleurs, cela peut suffire à justifier leur prix par rapport à l’auto-hébergement de modèles à poids ouverts de l’ordre de 0,5 à 1T
  L’utilisation de ce type d’énormes racks ne sera pas de 24 h/24, 7 j/7, et en général l’organisation n’est pas assez centrée GPU pour entraîner des modèles avec le calcul inutilisé
  Si le coût est de 100 000 à 200 000 dollars ou plus, avec une durée de vie d’environ deux ans, c’est difficile à justifier financièrement
  Même en amortissant l’auto-hébergement sur plusieurs développeurs, on arrive facilement à environ 1 000 dollars par mois, avec des limites de débit sévères aux heures de pointe
  Est-ce que les 500 dollars restants, entre 1 500 et 1 000 dollars par mois, justifient une baisse de 10 % de la « productivité IA » ? Dans la plupart des cas, je dirais que non
  À court terme, sauf excellente raison d’auto-héberger absolument un modèle d’assistance au code, je dirais que les 2 ou 3 meilleurs fournisseurs d’assistants de code sont un meilleur choix
  Personne n’a été licencié pour avoir acheté une licence Claude Code
- Je ne vois pas pourquoi cela devrait être plus courant
  Rien que mutualiser des GPU pour plusieurs utilisateurs, tout en respectant les contrôles de sécurité et en les connectant à la documentation et aux data lakes, n’a rien de simple
  Au final, il faut payer une équipe pour gérer tout ça
- L’avoir essayé une fois seul sur une machine personnelle et fournir des modèles à 3 000 employés dans un contexte où les exigences matérielles et logicielles changent en permanence, ce sont deux calculs complètement différents
  Il faut du matériel dédié dans un datacenter et des spécialistes pour l’exploiter
  L’entreprise doit trouver comment gérer, en plus de son activité principale, les achats, les actifs, les coûts et mille autres choses
  Et qui a déjà résolu tout ça ? AWS, Azure, OpenAI, etc.
- C’est la même raison pour laquelle les entreprises ne construisent pas leurs propres datacenters pour les besoins classiques d’hébergement et de stockage, et passent plutôt par AWS, Azure, etc.
  Entretenir le matériel et recruter des experts de l’exploitation de services, ça coûte de l’argent
  Pour quelque chose d’aussi courant qu’un modèle LLM, à moins d’être une entreprise extrêmement sensible au simple fait d’envoyer des octets vers AWS, il n’y a aucune raison de fournir le modèle sur son propre matériel
Plus que le chiffre d’un plafond de 1 500 dollars par mois, ce qui est intéressant, c’est le fait qu’ils aient effectivement fixé un plafond
La plupart des équipes d’ingénierie avec lesquelles j’ai parlé ne savent pas combien elles dépensent en IA par développeur, parce que c’est noyé dans une facture cloud consolidée
Un plafond strict force deux conversations utiles : quels workflows justifient des appels API et lesquels peuvent se contenter d’inférence locale, et si les résultats sont réellement comparés à des indicateurs de productivité
Sans cette boucle de rétroaction, cela devient juste une course pour voir qui brûle le plus vite des tokens
- Les plans Enterprise d’Anthropic et d’OpenAI proposent tous deux des analyses par développeur
  Anthropic : https://support.claude.com/en/articles/12883420-view-usage-a...
  OpenAI : https://help.openai.com/en/articles/10875114-workspace-analy...
L’enchaînement entre « un plafond de 1 500 dollars par mois et par outil semble être une réponse politique raisonnable à la surconsommation » et « ma consommation de tokens tourne autour de 1 000 dollars par mois chez Anthropic et OpenAI respectivement, mais grâce à un plan subventionné généreux pour les abonnés individuels, je ne paie actuellement que 100 dollars par fournisseur » donne une impression de système de vente multiniveau
On dirait une structure où les “diamants” gagnent de l’argent en faisant la promotion du MLM dans des séminaires, puis disent à ceux qui espèrent percer tout en bas que « souscrire un abonnement IA maintenant est l’unique chance dans une vie de devenir un gagnant »
Je me demande s’il n’y a pas quelque chose dans le MLM vs LLM qui déclenche ce FOMO
- Simon Willison est comme ça depuis l’arrivée des LLM. Cela donne trop ouvertement l’impression de quelqu’un qui fait leur promotion contre rémunération

Le plafond de 1 500 dollars par mois imposé par Uber pour l’IA est un signal utile sur la tarification des outils d’IA

Le plafond de dépenses d’Uber pour les outils de codage IA

Signal tarifaire et calcul des coûts

À lire aussi

1 commentaires

Avis sur Hacker News

Le plafond de 1 500 dollars par mois imposé par Uber pour l’IA est un signal utile sur la tarification des outils d’IA