Le duo main-d’œuvre externalisée + LocalAI deviendra bientôt plus économique que les frontier labs
(signalbloom.ai)- Alors que les prix des API des frontier labs américains continuent d’augmenter, la combinaison d’ingénieurs dans des pays à bas coût et de modèles open source comme DeepSeek émerge comme une alternative économique
- Les derniers modèles frontier, comme GPT-5.5, Gemini 3.5 Flash et Opus-4.7, ont procédé à des hausses de prix de 2 à 3 fois ou à une augmentation de la consommation de tokens
- En comparaison sur la base de tokens blended, Anthropic et OpenAI sont à environ 2,80 $/M, contre 0,094 $/M pour DeepSeek, soit un écart de prix d’environ 30x
- Les modèles frontier sont plus puissants, mais pour le codage, les modèles OSS sont déjà à un niveau largement suffisant, et l’écart peut être compensé en les combinant avec des ingénieurs compétents
- Si ces hausses de prix ne peuvent pas se poursuivre indéfiniment, c’est parce que la combinaison externalisation + LocalAI sert de plafond tarifaire
Hausse du coût d’inférence dans les frontier labs
- Contrairement à l’idée reçue selon laquelle le coût de l’inférence baisse, les prix des frontier labs américains suivent une tendance haussière nette
- Le lancement de GPT-5.5 (5 $/30 $) est intervenu deux mois seulement après celui de GPT-5.4, avec un doublement généralisé des prix API
- Par rapport à GPT-5 (1,25 $/10 $) il y a 8 mois, le prix a été multiplié par plus de 3
- Gemini 3.5 Flash (1,50 $/9,00 $) représente une hausse de 3x par rapport au modèle précédent Gemini-3-flash-preview (0,50 $/3,00 $)
- Gemini-3-flash-preview était lui-même déjà plus cher que 2.5 Flash (0,30 $/2,50 $)
- Anthropic Opus-4.7, avec l’introduction d’un nouveau tokenizer, entraîne une hausse de 32 à 47 % de la consommation de tokens, ce qui augmente le coût réel par rapport à Opus-4.6
Modèles frontier fermés vs modèles open source
- Comparaison basée sur le ratio de consommation de tokens blended : hypothèse de 50k tokens de sortie pour 1M tokens d’entrée (+ cache), soit moins d’environ 5 %
- Les grandes boucles d’agents comportent beaucoup de tours et une part importante de lecture, c’est donc une estimation prudente
- Comparaison du prix blended moyen après prise en compte du cache pour chaque fournisseur (source : openrouter.ai)
-
Comparatif des tarifs par fournisseur
- Anthropic : entrée 1,57 $ / sortie 25,00 $ / taux de hit du cache 79,6 % → blended 2,82 $
- OpenAI : entrée 1,30 $ / sortie 30,22 $ / taux de hit du cache 84,8 % → blended 2,80 $
- DeepSeek : entrée 0,055 $ / sortie 0,870 $ / taux de hit du cache 88,1 % → blended 0,094 $
- Les modèles frontier fermés restent aujourd’hui plus puissants que le dernier modèle de DeepSeek, mais on peut douter que l’écart justifie un prix 30 fois supérieur
- Les OSS LLM n’ont pas besoin d’atteindre le niveau frontier : ils doivent simplement offrir une performance suffisante pour le codage, et ce seuil a déjà été atteint
Tendance à la hausse de la consommation de tokens
- La tendance du tokenmaxxing s’est accélérée ces derniers mois et années (voir le blog Pragmatic Engineer)
- Il existe un large consensus parmi les ingénieurs compétents sur le fait que viser le tokenmaxxing est une mauvaise idée, mais c’est un autre sujet
- La forte hausse de la consommation de tokens se vérifie aussi par la pénurie persistante de GPU
- L’augmentation de la consommation de tokens et la hausse du prix par token se produisent simultanément, en lien avec la stratégie de capture de valeur des frontier labs américains
(Humain + LLM quasi-frontier) vs LLM frontier
- Il existe une analyse séparée comparant ingénieurs humains et agents IA sur 12 axes (signalbloom.ai)
- Conclusion : les agents IA ont déjà dépassé les humains en codage, et devraient bientôt aussi les dépasser en débogage à périmètre limité
- En revanche, l’IA reste en retard sur d’autres capacités clés nécessaires à une bonne ingénierie
- Mémoire à long terme (long-term memory)
- Méta-mémoire (meta memory) : capacité à distinguer clairement ce qu’elle sait de ce qu’elle ne sait pas
- Évaluation de la suffisance des preuves (Evidential Sufficiency Assessment) : juger si les preuves disponibles suffisent pour agir
- Les architectures statistiques actuelles doivent être renforcées ou remplacées par une autre percée
- La capacité à exécuter des tâches et l’autonomie de l’IA ne sont pas la même chose
Scénario de point de croisement des coûts
-
Comparaison clé
- Analyse du moment où la combinaison ingénieur d’un pays à bas coût + modèle suffisamment compétent obtient un meilleur rapport valeur/prix que les meilleurs modèles frontier
- Variables : salaire de l’ingénieur, taux de croissance du salaire, volume initial de tokens, taux de croissance des tokens, prix frontier, taux de variation du prix frontier, prix DeepSeek, durée
-
Résultat
- Croisement au bout de 11 mois : le coût d’inférence frontier dépasse alors le coût de la combinaison ingénieur + DeepSeek (1016,61 $/mois)
Avis et limites
- Les graphiques reposent sur des hypothèses simplificatrices
- Variables comme le prix futur de l’inférence ou les tendances de consommation de tokens
- Réflexivité (reflexivity) : les acteurs du marché changent de comportement en fonction de ce qu’ils observent
- Les éléments suivants ne sont pas pris en compte, alors qu’ils favoriseraient encore davantage les modèles locaux
- La vitesse d’amélioration rapide des modèles locaux
- Le matériel d’inférence supplémentaire qui sera déployé dans les prochains mois et années
- L’idée centrale : au-delà d’un certain niveau, la hausse des coûts de l’IA devient pour les entreprises une consommation de cash préoccupante et une part importante des dépenses totales
- Cela crée de fait une limite à l’ampleur et à la vitesse des hausses de prix des frontier labs
1 commentaires
Avis sur Hacker News
En parlant du prix des LLM, on rate l’essentiel. Le prix des tokens en abonnement est 10 à 40 fois moins cher que le prix API, donc un abonnement Claude à 90 $/mois équivaut presque à 1 000 à 4 000 $ en prix de tokens API
Deuxièmement, le niveau de l’« opérateur » qui manipule le modèle change énormément les résultats. Un développeur senior expérimenté, qui sait bien écrire ses prompts et fait preuve d’initiative, obtiendra des résultats bien meilleurs qu’un membre de l’équipe manquant de motivation et de compétences de base
Enfin, il existe un grand écart en capacité, déterminisme et gestion des erreurs entre un modèle de pointe de classe 5T comme Opus et les petits modèles distillés de DeepSeek qui brillent surtout dans les benchmarks
Les grandes entreprises paient donc bien plus que dans le cadre d’un abonnement à tarif réduit
Et il me semble que l’idée selon laquelle les modèles locaux seraient « distillés depuis DeepSeek » est erronée. Les modèles locaux ne sont pas uniquement bons en benchmark, et Qwen 3.6 est un modèle tout à fait correct. Ce n’est certes pas Opus, mais il est bien plus rapide, et la vitesse est aussi une forme de qualité
Ces entreprises enregistrent des pertes massives et portent des dettes et engagements de plusieurs centaines de milliards de dollars. Elles devront bientôt ouvrir le robinet de la monétisation
On dirait qu’on voit l’arbre mais pas la forêt. Travailler avec ChatGPT ressemble de manière troublante à l’époque où l’on travaillait avec des développeurs offshore indiens en environnement enterprise. Avec des consignes explicites, c’est productif, mais si on les laisse agir à leur guise, il y a beaucoup de moments WTF
Les LLM ont de fortes chances de remplacer les développeurs en outsourcing. Des employés internes qui connaissent le contexte peuvent utiliser des LLM pour faire le travail qu’effectuaient autrefois les développeurs offshore
Les entreprises cherchent toujours à réduire le coût marginal. Elles embaucheront un architecte logiciel aux États-Unis pour rédiger les spécifications, puis 10 développeurs en Inde pour superviser 100 agents
Contrairement aux développeurs à distance, le problème de l’outsourcing est que, pour que ça fonctionne vraiment, il faut un manager et un lead technique vraiment excellents
D’après mon expérience, pour obtenir des résultats efficaces, il faut rédiger des documents de conception et des spécifications de travail extrêmement détaillés. En général, ils doivent être aussi détaillés qu’un prompt efficace
Si on a déjà écrit des spécifications à ce niveau de détail, pourquoi aurait-on besoin de développeurs en outsourcing et d’un modèle de pointe ?
Les entreprises avec des responsables produit/projet solides qui supervisent tout de façon très minutieuse pourront peut-être faire émerger une nouvelle génération de développeurs, mais certaines vont croire les slogans commerciaux et échouer en rendant leur logiciel impossible à maintenir
Je pense que dans 10 ans, il y aura à peu près autant de développeurs qu’aujourd’hui, et qu’ils construiront davantage de produits. L’IA servira à automatiser de façon utile des domaines isolés et bien délimités, mais l’essentiel du développement logiciel se fera à un niveau d’abstraction plus élevé, exprimant les mêmes concepts avec moins de déchets textuels
Le cœur du code se concentrera davantage sur l’encodage concret et la mise en évidence de la complexité des cas limites bizarres
Quand j’ai commencé dans le développement logiciel, j’ai travaillé sur un MUD extrêmement sale, bricolé par de nombreuses personnes au fil du temps. J’ai du mal à imaginer qui accepterait volontiers d’aller fouiller dans une mare de boue et de spaghetti code produite par l’IA sans supervision stricte ni corrections
Le cœur du développement logiciel a toujours été la résolution de problèmes, ou plus précisément l’identification des problèmes. Avec le temps, nous avons progressivement éliminé tout le superflu pour nous concentrer sur ce point. Cette tendance va continuer, en évoluant vers des langages plus concis et plus abstraits pour spécifier les problèmes, tandis que les flux logiques complexes, les parties driver et les mathématiques seront davantage isolés dans des bibliothèques et des outils
Même si les ingénieurs sont coopératifs, les managers ou propriétaires évitent la collaboration étroite et imposent un mode de travail à distance. Par exemple, un simple appel par semaine
Je l’ai vécu moi-même. Une fois, on a dépensé £300k pour une équipe de développement en outsourcing — heureusement, ce n’était pas mon argent — et à la fin, rien n’a été livré. La majeure partie du temps a simplement servi à aligner la direction du travail
Mon associé et moi avions une idée assez claire de ce que nous voulions et nous essayions de synchroniser plus souvent pour aligner les efforts, mais leurs managers ont continué à l’empêcher. C’est le modèle économique du conseil
Avec les employés à distance en interne, les incitations sont inverses. Ce sont littéralement des salariés à plein temps, il n’y a pas de couche de management qui bloque la communication, et à moins qu’ils soient paresseux ou malhonnêtes, ils préféreront résoudre des problèmes intéressants plutôt que rester à s’ennuyer
Je pense aussi que c’est là que l’hypothèse du texte original rate sa cible. L’écart entre DeepSeek et les modèles de pointe n’est généralement pas quelque chose qu’un outsourcing bas de gamme peut combler. Au final, il faut payer des ingénieurs d’outsourcing très qualifiés, et ils ne sont pas forcément beaucoup moins chers. Dès le départ, l’outsourcing ne se fait pas seulement pour des raisons de coût, mais aussi pour des questions de compétence et de capacité
Il faut spécifier tout avec un niveau de détail approprié, et à ce stade un LLM a de bonnes chances de s’en sortir plutôt bien. En plus, beaucoup d’équipes d’outsourcing construisent d’une manière totalement différente de l’équipe interne, et la différence de niveau de livraison et de vitesse est absolue
Tout change si vite que je me demande aussi pourquoi je devrais dépenser mon temps et mon argent pour former les employés de quelqu’un d’autre aux dernières évolutions
J’ai un ami cadre dans une entreprise logicielle américaine, et il se prépare à licencier plusieurs équipes de programmeurs de sa filiale d’Europe de l’Est pour les remplacer par un petit nombre de programmeurs américains et de l’IA. Il dit que cette formule est bien plus productive et permet de créer de nouvelles fonctionnalités beaucoup plus vite
Appliqué à l’industrie manufacturière, une stratégie robot-first ne devrait pas seulement viser à relocaliser la production dans le pays, mais aller plus loin : devenir une nouvelle destination d’externalisation manufacturière
Donc les PME n’auront peut-être plus besoin d’autant d’ingénieurs internes, ni d’autant de personnel finance ou marketing qu’aujourd’hui
L’avenir de l’IA américaine de pointe ne passera pas par des appels API, mais par le fait d’apporter du travail à OAI/Anthropic comme à des consultants ou des prestataires externes, puis de recevoir un résultat assimilable à un produit sans inspecter en masse les étapes intermédiaires
Cela est inévitable en raison de la combinaison entre la menace de distillation et l’effort de développement nécessaire pour des environnements d’exécution propriétaires capables de pousser les performances de pointe
OAI/Anthropic chercheront à prendre 100 % des emplois de tout le monde et à “posséder” le “travail”. Ici, le camp chinois est le gentil
Mais ce qu’ils n’ont pas compris, c’est que définir le problème est plus difficile que la solution elle-même
J’ai vraiment essayé par tous les moyens d’utiliser des modèles locaux. J’ai testé de nombreux environnements d’exécution, outils, compétences et prompts
Mais si l’on compare Claude Code et les modèles Anthropic, ou Codex et GPT 5.5, à des environnements d’exécution comme Qwen, GLM ou Gemma, les modèles de pointe les écrasent largement. À ce stade, je ne vois plus l’intérêt des modèles qui ne sont pas à la pointe. Le temps perdu dépasse le temps économisé
Pour du code sur un périmètre restreint, par exemple écrire une fonction précise, c’est possible mais lent. En revanche, pour un usage général de chat LLM sur du matériel grand public haut de gamme, ils restent compétitifs hors coût
https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
Si le coût de l’inférence continue de baisser, comme ces dernières années, on pourra faire tourner d’ici la fin de l’année les modèles de pointe d’aujourd’hui sur un ordinateur portable
En tant qu’ingénieur logiciel, c’est largement suffisant au point d’être difficile à épuiser en pratique, et au vu du gain d’efficacité, c’est très bon marché
Et puis, puisque Claude/Codex font déjà bien le travail et progressent chaque mois, qui aurait envie de bricoler l’environnement d’exécution ou de définir une orchestration d’agents ?
Le scénario le plus probable, c’est plutôt que le bas du marché disparaisse, tandis que le haut du marché deviendra plus productif grâce aux modèles de pointe
Plus un développeur est faible, plus il a besoin d’une IA puissante. La prémisse de cet article ne tient pas, car elle confond l’idée qu’un développeur faible avec une IA faible vaudrait mieux qu’un développeur fort avec une IA presque autonome
Les produits créés par un développeur faible utilisant une IA de pointe sont déjà inférieurs à ceux d’un développeur compétent accompagné d’une IA faible d’il y a deux ans
Pour le dire plus clairement, un développeur fort pouvait déjà, il y a deux ans, exploiter l’IA pour produire des produits de haute qualité. Même avec les IA les plus récentes, un développeur faible reste en difficulté, alors qu’un développeur fort peut déléguer davantage de travail à une IA plus performante et encore augmenter sa productivité
Une organisation cauchemardesque avec des prestataires sans supervision ou des juniors recrutés en excès serait bien plus toxique dans une période comme celle-ci
Je continue à voir circuler ce récit qui prend DeepSeek comme exemple d’un LLM open source, alors qu’ils subventionnent à prix coûtant une quantité énorme de tokens. Si on n’est pas paresseux et qu’on réfléchit de façon critique, il est facile de comprendre pourquoi
Surtout dans une situation où le matériel d’inférence est fortement restreint à cause des risques géopolitiques, utiliser une IA locale au niveau des modèles de pointe reste encore trop cher et trop inefficace
Je doute aussi fortement de l’idée selon laquelle les LLM locaux pourraient menacer à long terme ces entreprises à la pointe
Si les tokens deviennent chers, c’est parce qu’elles commencent à dominer le marché et qu’elles exploiteront cet avantage pour restreindre la distribution de matériel à l’intérieur comme à l’extérieur de leurs frontières
Les LLM locaux seront probablement davantage utilisés dans certains workflows, mais pas pour des tâches qui exigent le niveau des modèles de pointe, et il leur sera difficile de battre les prix proposés par les versions plus légères et plus petites des modèles de pointe, conçues pour capter la longue traîne
J’avais plutôt l’impression que DeepSeek avait conçu v4 spécialement pour une inférence à bas coût, et qu’ils ne perdaient pas d’argent même avec des prix 75 % plus bas
Je pense que l’expérience de qualité et les valeurs personnelles comptent davantage que le coût des ingénieurs. Ces dernières années, j’ai vu trop de raccourcis dans les travaux externalisés, et l’IA adore aussi prendre des raccourcis. La combinaison des deux n’apporte pas autant de valeur que les économies réalisées
Si l’on accorde de l’importance à un travail de haute qualité et à la fierté du travail bien fait, alors le recours à des prestataires externalisés n’est pas la solution. S’ils coûtent moins cher, c’est généralement parce qu’ils n’apportent pas à leur travail le même niveau d’attention
À l’inverse, si l’objectif est simplement de finir coûte que coûte sans se soucier de savoir si c’est bien fait, alors il n’y a probablement rien de mieux que de dépenser le moins possible
Il y a un point que l’article ne traite pas. Un bon ingénieur ne passe pas tant de temps que ça à coder dans un projet existant, comparé au reste de ses tâches. Un bon ingénieur comprend le système de bout en bout. Un développeur offshore est inférieur à Llama3