Le duo main-d’œuvre externalisée + LocalAI deviendra bientôt plus économique que les frontier labs

(signalbloom.ai)

14 points par GN⁺ 2026-05-28 | 2 commentaires | Partager sur WhatsApp

Alors que les prix des API des frontier labs américains continuent d’augmenter, la combinaison d’ingénieurs dans des pays à bas coût et de modèles open source comme DeepSeek émerge comme une alternative économique
Les derniers modèles frontier, comme GPT-5.5, Gemini 3.5 Flash et Opus-4.7, ont procédé à des hausses de prix de 2 à 3 fois ou à une augmentation de la consommation de tokens
En comparaison sur la base de tokens blended, Anthropic et OpenAI sont à environ 2,80 $/M, contre 0,094 $/M pour DeepSeek, soit un écart de prix d’environ 30x
Les modèles frontier sont plus puissants, mais pour le codage, les modèles OSS sont déjà à un niveau largement suffisant, et l’écart peut être compensé en les combinant avec des ingénieurs compétents
Si ces hausses de prix ne peuvent pas se poursuivre indéfiniment, c’est parce que la combinaison externalisation + LocalAI sert de plafond tarifaire

Hausse du coût d’inférence dans les frontier labs

Contrairement à l’idée reçue selon laquelle le coût de l’inférence baisse, les prix des frontier labs américains suivent une tendance haussière nette
Le lancement de GPT-5.5 (5 $/30 $) est intervenu deux mois seulement après celui de GPT-5.4, avec un doublement généralisé des prix API
- Par rapport à GPT-5 (1,25 $/10 $) il y a 8 mois, le prix a été multiplié par plus de 3
Gemini 3.5 Flash (1,50 $/9,00 $) représente une hausse de 3x par rapport au modèle précédent Gemini-3-flash-preview (0,50 $/3,00 $)
- Gemini-3-flash-preview était lui-même déjà plus cher que 2.5 Flash (0,30 $/2,50 $)
Anthropic Opus-4.7, avec l’introduction d’un nouveau tokenizer, entraîne une hausse de 32 à 47 % de la consommation de tokens, ce qui augmente le coût réel par rapport à Opus-4.6

Modèles frontier fermés vs modèles open source

Comparaison basée sur le ratio de consommation de tokens blended : hypothèse de 50k tokens de sortie pour 1M tokens d’entrée (+ cache), soit moins d’environ 5 %
- Les grandes boucles d’agents comportent beaucoup de tours et une part importante de lecture, c’est donc une estimation prudente
Comparaison du prix blended moyen après prise en compte du cache pour chaque fournisseur (source : openrouter.ai)
Comparatif des tarifs par fournisseur
- Anthropic : entrée 1,57 $ / sortie 25,00 $ / taux de hit du cache 79,6 % → blended 2,82 $
- OpenAI : entrée 1,30 $ / sortie 30,22 $ / taux de hit du cache 84,8 % → blended 2,80 $
- DeepSeek : entrée 0,055 $ / sortie 0,870 $ / taux de hit du cache 88,1 % → blended 0,094 $
Les modèles frontier fermés restent aujourd’hui plus puissants que le dernier modèle de DeepSeek, mais on peut douter que l’écart justifie un prix 30 fois supérieur
Les OSS LLM n’ont pas besoin d’atteindre le niveau frontier : ils doivent simplement offrir une performance suffisante pour le codage, et ce seuil a déjà été atteint

Tendance à la hausse de la consommation de tokens

La tendance du tokenmaxxing s’est accélérée ces derniers mois et années (voir le blog Pragmatic Engineer)
Il existe un large consensus parmi les ingénieurs compétents sur le fait que viser le tokenmaxxing est une mauvaise idée, mais c’est un autre sujet
La forte hausse de la consommation de tokens se vérifie aussi par la pénurie persistante de GPU
L’augmentation de la consommation de tokens et la hausse du prix par token se produisent simultanément, en lien avec la stratégie de capture de valeur des frontier labs américains

(Humain + LLM quasi-frontier) vs LLM frontier

Il existe une analyse séparée comparant ingénieurs humains et agents IA sur 12 axes (signalbloom.ai)
Conclusion : les agents IA ont déjà dépassé les humains en codage, et devraient bientôt aussi les dépasser en débogage à périmètre limité
En revanche, l’IA reste en retard sur d’autres capacités clés nécessaires à une bonne ingénierie
- Mémoire à long terme (long-term memory)
- Méta-mémoire (meta memory) : capacité à distinguer clairement ce qu’elle sait de ce qu’elle ne sait pas
- Évaluation de la suffisance des preuves (Evidential Sufficiency Assessment) : juger si les preuves disponibles suffisent pour agir
Les architectures statistiques actuelles doivent être renforcées ou remplacées par une autre percée
La capacité à exécuter des tâches et l’autonomie de l’IA ne sont pas la même chose

Scénario de point de croisement des coûts

Comparaison clé
- Analyse du moment où la combinaison ingénieur d’un pays à bas coût + modèle suffisamment compétent obtient un meilleur rapport valeur/prix que les meilleurs modèles frontier
- Variables : salaire de l’ingénieur, taux de croissance du salaire, volume initial de tokens, taux de croissance des tokens, prix frontier, taux de variation du prix frontier, prix DeepSeek, durée
Résultat
- Croisement au bout de 11 mois : le coût d’inférence frontier dépasse alors le coût de la combinaison ingénieur + DeepSeek (1016,61 $/mois)

Avis et limites

Les graphiques reposent sur des hypothèses simplificatrices
- Variables comme le prix futur de l’inférence ou les tendances de consommation de tokens
- Réflexivité (reflexivity) : les acteurs du marché changent de comportement en fonction de ce qu’ils observent
Les éléments suivants ne sont pas pris en compte, alors qu’ils favoriseraient encore davantage les modèles locaux
- La vitesse d’amélioration rapide des modèles locaux
- Le matériel d’inférence supplémentaire qui sera déployé dans les prochains mois et années
L’idée centrale : au-delà d’un certain niveau, la hausse des coûts de l’IA devient pour les entreprises une consommation de cash préoccupante et une part importante des dépenses totales
Cela crée de fait une limite à l’ampleur et à la vitesse des hausses de prix des frontier labs

2 commentaires

hmmhmmhm 2026-05-29

Pour le code, j’utilise Qwen 3.6 35B A3B, et pour la recherche, Gemma 26B A4B semble donner des résultats corrects dans une certaine mesure, mais j’aimerais vraiment voir arriver davantage d’équipements on-device bon marché. Il faut au moins un Apple M4 Pro ou une RTX 5070 Ti 16GB pour que ça tourne, et encore, tout juste....

GN⁺ 2026-05-28

Avis sur Hacker News

En parlant du prix des LLM, on rate l’essentiel. Le prix des tokens en abonnement est 10 à 40 fois moins cher que le prix API, donc un abonnement Claude à 90 $/mois équivaut presque à 1 000 à 4 000 $ en prix de tokens API
Deuxièmement, le niveau de l’« opérateur » qui manipule le modèle change énormément les résultats. Un développeur senior expérimenté, qui sait bien écrire ses prompts et fait preuve d’initiative, obtiendra des résultats bien meilleurs qu’un membre de l’équipe manquant de motivation et de compétences de base
Enfin, il existe un grand écart en capacité, déterminisme et gestion des erreurs entre un modèle de pointe de classe 5T comme Opus et les petits modèles distillés de DeepSeek qui brillent surtout dans les benchmarks
- J’ai appris aujourd’hui que le plan Anthropic Enterprise, utilisé par les grandes entreprises pour les fonctions de gouvernance et les journaux d’audit, est facturé au tarif des tokens API plus 20 $/mois par siège
  Les grandes entreprises paient donc bien plus que dans le cadre d’un abonnement à tarif réduit
- Je me demande sur quoi repose l’affirmation selon laquelle Opus serait un modèle 5T
  Et il me semble que l’idée selon laquelle les modèles locaux seraient « distillés depuis DeepSeek » est erronée. Les modèles locaux ne sont pas uniquement bons en benchmark, et Qwen 3.6 est un modèle tout à fait correct. Ce n’est certes pas Opus, mais il est bien plus rapide, et la vitesse est aussi une forme de qualité
- Même les modèles qui ne sont pas à la pointe continuent de progresser. Si quelqu’un peut faire 90 % du travail avec DeepSeek pour 100 $, puis finaliser le reste avec Anthropic ou OpenAI pour 100 $ supplémentaires, il y a de fortes chances qu’il choisisse cette option plutôt que de payer 1 000 $ à Anthropic ou OpenAI
- Le fait que le prix des tokens en abonnement soit 10 à 40 fois inférieur à l’API est un phénomène temporaire. Il faut s’attendre dans les prochains mois à de fortes hausses de prix, à des limitations d’usage strictes, ou aux deux à la fois
  Ces entreprises enregistrent des pertes massives et portent des dettes et engagements de plusieurs centaines de milliards de dollars. Elles devront bientôt ouvrir le robinet de la monétisation
- En sachant qu’un abonnement Claude à 90 $/mois vaut 1 000 à 4 000 $ au tarif API, trouvez-vous vraiment irrationnel de considérer que cette structure est intenable ?
On dirait qu’on voit l’arbre mais pas la forêt. Travailler avec ChatGPT ressemble de manière troublante à l’époque où l’on travaillait avec des développeurs offshore indiens en environnement enterprise. Avec des consignes explicites, c’est productif, mais si on les laisse agir à leur guise, il y a beaucoup de moments WTF
Les LLM ont de fortes chances de remplacer les développeurs en outsourcing. Des employés internes qui connaissent le contexte peuvent utiliser des LLM pour faire le travail qu’effectuaient autrefois les développeurs offshore
- Parmi ces moments WTF, combien viennent simplement du fait qu’ils « n’étaient pas dans la pièce où cela a été décidé » ? La plupart des logiciels enterprise sont remplis de moments WTF exigés par toutes sortes de compromis
- Il existe hors de votre pays des développeurs talentueux, qui maîtrisent suffisamment la langue et acceptent une rémunération plus faible. Il y a de nombreuses raisons pour que leur nombre augmente
- Quand on voit le nombre d’équipes d’outsourcing qui mendient des missions sur LinkedIn, cela colle clairement avec cette idée
- Les « développeurs offshore indiens » ne sont pas non plus des gens faciles à remplacer. Eux aussi peuvent accéder aux mêmes modèles GPT, et leur coût pourrait représenter un dixième du salaire médian américain
  Les entreprises cherchent toujours à réduire le coût marginal. Elles embaucheront un architecte logiciel aux États-Unis pour rédiger les spécifications, puis 10 développeurs en Inde pour superviser 100 agents
Contrairement aux développeurs à distance, le problème de l’outsourcing est que, pour que ça fonctionne vraiment, il faut un manager et un lead technique vraiment excellents
D’après mon expérience, pour obtenir des résultats efficaces, il faut rédiger des documents de conception et des spécifications de travail extrêmement détaillés. En général, ils doivent être aussi détaillés qu’un prompt efficace
Si on a déjà écrit des spécifications à ce niveau de détail, pourquoi aurait-on besoin de développeurs en outsourcing et d’un modèle de pointe ?
- Ce qui est intéressant, c’est que les problèmes de l’outsourcing sont les mêmes que ceux de l’IA, et que tout cela rappelle le début des années 2000. Les entreprises s’émerveillent de l’argent qu’elles peuvent économiser sans se rendre compte des dégâts infligés au produit
  Les entreprises avec des responsables produit/projet solides qui supervisent tout de façon très minutieuse pourront peut-être faire émerger une nouvelle génération de développeurs, mais certaines vont croire les slogans commerciaux et échouer en rendant leur logiciel impossible à maintenir
  Je pense que dans 10 ans, il y aura à peu près autant de développeurs qu’aujourd’hui, et qu’ils construiront davantage de produits. L’IA servira à automatiser de façon utile des domaines isolés et bien délimités, mais l’essentiel du développement logiciel se fera à un niveau d’abstraction plus élevé, exprimant les mêmes concepts avec moins de déchets textuels
  Le cœur du code se concentrera davantage sur l’encodage concret et la mise en évidence de la complexité des cas limites bizarres
  Quand j’ai commencé dans le développement logiciel, j’ai travaillé sur un MUD extrêmement sale, bricolé par de nombreuses personnes au fil du temps. J’ai du mal à imaginer qui accepterait volontiers d’aller fouiller dans une mare de boue et de spaghetti code produite par l’IA sans supervision stricte ni corrections
  Le cœur du développement logiciel a toujours été la résolution de problèmes, ou plus précisément l’identification des problèmes. Avec le temps, nous avons progressivement éliminé tout le superflu pour nous concentrer sur ce point. Cette tendance va continuer, en évoluant vers des langages plus concis et plus abstraits pour spécifier les problèmes, tandis que les flux logiques complexes, les parties driver et les mathématiques seront davantage isolés dans des bibliothèques et des outils
- L’ensemble du modèle économique des développeurs ou sociétés d’“outsourcing” consiste à surfacturer les gens. On vous dit que “4 ingénieurs sont affectés au projet”, mais ces 4 personnes travaillent aussi sur 5 autres projets
  Même si les ingénieurs sont coopératifs, les managers ou propriétaires évitent la collaboration étroite et imposent un mode de travail à distance. Par exemple, un simple appel par semaine
  Je l’ai vécu moi-même. Une fois, on a dépensé £300k pour une équipe de développement en outsourcing — heureusement, ce n’était pas mon argent — et à la fin, rien n’a été livré. La majeure partie du temps a simplement servi à aligner la direction du travail
  Mon associé et moi avions une idée assez claire de ce que nous voulions et nous essayions de synchroniser plus souvent pour aligner les efforts, mais leurs managers ont continué à l’empêcher. C’est le modèle économique du conseil
  Avec les employés à distance en interne, les incitations sont inverses. Ce sont littéralement des salariés à plein temps, il n’y a pas de couche de management qui bloque la communication, et à moins qu’ils soient paresseux ou malhonnêtes, ils préféreront résoudre des problèmes intéressants plutôt que rester à s’ennuyer
- En général, l’outsourcing rend exactement ce que l’on paie. Sous certains aspects, c’est plus transparent que d’autres approches. Le problème, c’est que cette transparence — autrement dit, le prix de la qualité — n’est pas toujours transmise depuis les dirigeants ou les achats qui prennent la décision jusqu’aux équipes qui doivent réellement travailler en mode distribué
  Je pense aussi que c’est là que l’hypothèse du texte original rate sa cible. L’écart entre DeepSeek et les modèles de pointe n’est généralement pas quelque chose qu’un outsourcing bas de gamme peut combler. Au final, il faut payer des ingénieurs d’outsourcing très qualifiés, et ils ne sont pas forcément beaucoup moins chers. Dès le départ, l’outsourcing ne se fait pas seulement pour des raisons de coût, mais aussi pour des questions de compétence et de capacité
- C’est exactement aussi mon avis
  Il faut spécifier tout avec un niveau de détail approprié, et à ce stade un LLM a de bonnes chances de s’en sortir plutôt bien. En plus, beaucoup d’équipes d’outsourcing construisent d’une manière totalement différente de l’équipe interne, et la différence de niveau de livraison et de vitesse est absolue
  Tout change si vite que je me demande aussi pourquoi je devrais dépenser mon temps et mon argent pour former les employés de quelqu’un d’autre aux dernières évolutions
- Mon problème, au fond, c’était simplement le manque d’appropriation. Sauf s’il s’agit d’une petite société d’outsourcing très focalisée, du point de vue de l’entreprise il est simplement plus facile d’expédier le travail, indépendamment de la qualité ou de la maintenabilité. Cela dit, mon échantillon personnel reste limité
J’ai un ami cadre dans une entreprise logicielle américaine, et il se prépare à licencier plusieurs équipes de programmeurs de sa filiale d’Europe de l’Est pour les remplacer par un petit nombre de programmeurs américains et de l’IA. Il dit que cette formule est bien plus productive et permet de créer de nouvelles fonctionnalités beaucoup plus vite
- Ça me paraît plus plausible. Mon goulot d’étranglement se déplace de la “compréhension du code” vers la compréhension des utilisateurs. Et pour valider cette seconde partie, il n’est pas nécessaire d’être programmeur
- C’est une inversion intéressante
  Appliqué à l’industrie manufacturière, une stratégie robot-first ne devrait pas seulement viser à relocaliser la production dans le pays, mais aller plus loin : devenir une nouvelle destination d’externalisation manufacturière
- Combien de temps avant qu’il ne revienne à la réalité et ne licencie en masse les agents ? :-)
- Le texte a raison à propos de l’outsourcing, mais à mon avis ce n’est pas à cause des contractuels offshore bon marché. Les bons spécialistes vont travailler de manière plus indépendante, et grâce à l’IA ils pourront servir davantage de clients
  Donc les PME n’auront peut-être plus besoin d’autant d’ingénieurs internes, ni d’autant de personnel finance ou marketing qu’aujourd’hui
L’avenir de l’IA américaine de pointe ne passera pas par des appels API, mais par le fait d’apporter du travail à OAI/Anthropic comme à des consultants ou des prestataires externes, puis de recevoir un résultat assimilable à un produit sans inspecter en masse les étapes intermédiaires
Cela est inévitable en raison de la combinaison entre la menace de distillation et l’effort de développement nécessaire pour des environnements d’exécution propriétaires capables de pousser les performances de pointe
OAI/Anthropic chercheront à prendre 100 % des emplois de tout le monde et à “posséder” le “travail”. Ici, le camp chinois est le gentil
- Non. Jeter un projet par-dessus le mur finit presque toujours en désastre. Les exigences ne sont jamais assez claires
- J’espère que cette approche fonctionnera. Cela rappelle l’inspiration des langages de programmation déclaratifs comme Prolog. Il s’agit de déclarer le problème pour que la machine puisse le résoudre, par opposition à l’approche impérative où l’on dit à la machine quoi faire
  Mais ce qu’ils n’ont pas compris, c’est que définir le problème est plus difficile que la solution elle-même
J’ai vraiment essayé par tous les moyens d’utiliser des modèles locaux. J’ai testé de nombreux environnements d’exécution, outils, compétences et prompts
Mais si l’on compare Claude Code et les modèles Anthropic, ou Codex et GPT 5.5, à des environnements d’exécution comme Qwen, GLM ou Gemma, les modèles de pointe les écrasent largement. À ce stade, je ne vois plus l’intérêt des modèles qui ne sont pas à la pointe. Le temps perdu dépasse le temps économisé
- Je suis d’accord à 100 % pour le codage orienté agents. Pour du code de grande ampleur, les modèles locaux sont pires, plus lents et plus chers
  Pour du code sur un périmètre restreint, par exemple écrire une fonction précise, c’est possible mais lent. En revanche, pour un usage général de chat LLM sur du matériel grand public haut de gamme, ils restent compétitifs hors coût
  https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
- Les modèles locaux ont 3 à 6 mois de retard sur les modèles de pointe les plus récents, mais ils ont le gros avantage de ne pas envoyer toute votre propriété intellectuelle à un tiers douteux
  Si le coût de l’inférence continue de baisser, comme ces dernières années, on pourra faire tourner d’ici la fin de l’année les modèles de pointe d’aujourd’hui sur un ordinateur portable
- Pareil pour moi. Quand j’entends des gens chipoter sur le fait de dépenser ou de se faire rembourser 200 $ par mois pour un abonnement Codex ou Claude, ça me frustre
  En tant qu’ingénieur logiciel, c’est largement suffisant au point d’être difficile à épuiser en pratique, et au vu du gain d’efficacité, c’est très bon marché
  Et puis, puisque Claude/Codex font déjà bien le travail et progressent chaque mois, qui aurait envie de bricoler l’environnement d’exécution ou de définir une orchestration d’agents ?
- Je suis arrivé à la même conclusion. Si on réfléchit au coût par requête, utiliser Opus tout le temps reste l’option la moins chère
- L’essentiel, c’est de ne pas s’asservir volontairement à des entreprises dont les intérêts ne sont pas alignés avec les siens
Le scénario le plus probable, c’est plutôt que le bas du marché disparaisse, tandis que le haut du marché deviendra plus productif grâce aux modèles de pointe
Plus un développeur est faible, plus il a besoin d’une IA puissante. La prémisse de cet article ne tient pas, car elle confond l’idée qu’un développeur faible avec une IA faible vaudrait mieux qu’un développeur fort avec une IA presque autonome
Les produits créés par un développeur faible utilisant une IA de pointe sont déjà inférieurs à ceux d’un développeur compétent accompagné d’une IA faible d’il y a deux ans
Pour le dire plus clairement, un développeur fort pouvait déjà, il y a deux ans, exploiter l’IA pour produire des produits de haute qualité. Même avec les IA les plus récentes, un développeur faible reste en difficulté, alors qu’un développeur fort peut déléguer davantage de travail à une IA plus performante et encore augmenter sa productivité
- C’est assez rare dans une vie, mais je suis vraiment reconnaissant de travailler en ce moment dans une entreprise où je collabore surtout avec des ingénieurs seniors compétents
  Une organisation cauchemardesque avec des prestataires sans supervision ou des juniors recrutés en excès serait bien plus toxique dans une période comme celle-ci
Je continue à voir circuler ce récit qui prend DeepSeek comme exemple d’un LLM open source, alors qu’ils subventionnent à prix coûtant une quantité énorme de tokens. Si on n’est pas paresseux et qu’on réfléchit de façon critique, il est facile de comprendre pourquoi
Surtout dans une situation où le matériel d’inférence est fortement restreint à cause des risques géopolitiques, utiliser une IA locale au niveau des modèles de pointe reste encore trop cher et trop inefficace
Je doute aussi fortement de l’idée selon laquelle les LLM locaux pourraient menacer à long terme ces entreprises à la pointe
Si les tokens deviennent chers, c’est parce qu’elles commencent à dominer le marché et qu’elles exploiteront cet avantage pour restreindre la distribution de matériel à l’intérieur comme à l’extérieur de leurs frontières
Les LLM locaux seront probablement davantage utilisés dans certains workflows, mais pas pour des tâches qui exigent le niveau des modèles de pointe, et il leur sera difficile de battre les prix proposés par les versions plus légères et plus petites des modèles de pointe, conçues pour capter la longue traîne
- Vous avez une source pour cette première affirmation ?
  J’avais plutôt l’impression que DeepSeek avait conçu v4 spécialement pour une inférence à bas coût, et qu’ils ne perdaient pas d’argent même avec des prix 75 % plus bas
- D’autres fournisseurs qui proposent les modèles DeepSeek sur OpenRouter peuvent eux aussi afficher des prix très bas, donc dire qu’ils subventionnent les tokens à prix coûtant est tout simplement faux. Ces fournisseurs n’ont de toute façon pas les moyens de subventionner quoi que ce soit
- Je ne crois pas. D’après ce que j’ai entendu, DeepSeek ne perd pas d’argent sur l’inférence
Je pense que l’expérience de qualité et les valeurs personnelles comptent davantage que le coût des ingénieurs. Ces dernières années, j’ai vu trop de raccourcis dans les travaux externalisés, et l’IA adore aussi prendre des raccourcis. La combinaison des deux n’apporte pas autant de valeur que les économies réalisées
Si l’on accorde de l’importance à un travail de haute qualité et à la fierté du travail bien fait, alors le recours à des prestataires externalisés n’est pas la solution. S’ils coûtent moins cher, c’est généralement parce qu’ils n’apportent pas à leur travail le même niveau d’attention
À l’inverse, si l’objectif est simplement de finir coûte que coûte sans se soucier de savoir si c’est bien fait, alors il n’y a probablement rien de mieux que de dépenser le moins possible
Il y a un point que l’article ne traite pas. Un bon ingénieur ne passe pas tant de temps que ça à coder dans un projet existant, comparé au reste de ses tâches. Un bon ingénieur comprend le système de bout en bout. Un développeur offshore est inférieur à Llama3