Coder avec l’IA chez soi sans dépenser comme une entreprise
(stephen.bochinski.dev)- Pour réduire le coût du coding IA à titre personnel, trois options se dégagent : l’auto-hébergement, la location d’API de modèles open source, et l’optimisation des abonnements frontier
- L’auto-hébergement consiste à acheter du matériel pour exécuter localement des modèles open source, sans payer ensuite au token, mais le coût initial est élevé et les modèles qu’on peut faire tourner chez soi restent moins puissants que ceux des laboratoires frontier
- Louer des modèles open source via une API permet d’éviter d’immobiliser des milliers de dollars dans une configuration GPU, d’échapper au travail nécessaire pour tirer de bonnes performances de ces modèles, et de passer facilement dès le mois suivant à une option moins chère ou meilleure
- Les abonnements frontier d’OpenAI et d’Anthropic, pour environ 400 dollars par mois, peuvent offrir l’équivalent d’environ 2 800 dollars d’usage API au prix catalogue, mais les workflows IA natifs à grande échelle consomment vite les tokens inclus
- L’approche la plus adaptée est une stratégie hybride : utiliser les abonnements frontier pour le raisonnement difficile et la rédaction de spécifications, et les API open source pour les petites tâches mécaniques
Trois options
- Il existe trois façons de faire du coding IA chez soi sans dépenses au niveau d’une entreprise, et le bon choix dépend en grande partie de la confiance que l’on accorde aux sorties de matériel et de modèles prévues sur les 12 prochains mois
- L’auto-hébergement consiste à acheter soi-même le matériel et à exécuter localement des modèles open source, sans coût par token par la suite
- Le coût initial est élevé, et les modèles qu’on peut réellement faire tourner chez soi restent moins puissants que ceux publiés par les laboratoires frontier
- Ce n’est rentable que si le matériel peut être utilisé en continu pour des tâches longues exécutées en arrière-plan avec des modèles lents et peu coûteux
- Pour la plupart des gens, il est difficile de maintenir durablement le matériel domestique sous une telle charge, et le hardware acheté aujourd’hui peut sembler être un mauvais choix dans un an
- La location d’API de modèles open source consiste à louer auprès d’un fournisseur les mêmes modèles open source via une tarification API, et c’est le choix qui convient à la plupart des gens
- Cela évite d’investir des milliers de dollars dans une seule configuration GPU, ainsi que le travail nécessaire pour obtenir de bonnes performances sur des modèles ouverts pour des exécutions longues
- Il est facile de passer le mois suivant à une option moins chère ou meilleure, sans avoir à revendre du matériel
- Des services comme OpenRouter rendent ce changement presque aussi simple qu’une modification d’une seule ligne
- L’optimisation des abonnements frontier consiste à tirer le maximum des abonnements OpenAI et Anthropic
- Avec des forfaits d’environ 400 dollars par mois, on peut obtenir l’équivalent d’environ 2 800 dollars d’usage API au prix catalogue, ce qui représente une forte remise tant qu’on n’atteint pas les limites
- Les forfaits mesurent l’usage, et les workflows IA natifs à grande échelle épuisent rapidement les tokens inclus
- Cela fonctionne bien pour un travail directement piloté par des humains, mais reste insuffisant comme moteur pour des agents qui tournent toute la journée
La combinaison qui a le mieux fonctionné
- La formule la plus efficace a été de combiner abonnements frontier et API de modèles open source
- Quelques abonnements frontier sont conservés pour le raisonnement difficile et la rédaction de spécifications, tandis que les petites tâches mécaniques sont traitées via la tarification API de modèles open source
- En s’appuyant sur le développement piloté par les spécifications, les modèles coûteux produisent le plan et les modèles bon marché le remplissent
- Bien exécutée, cette approche permet d’obtenir pour environ 1 000 dollars en un mois une production équivalente à celle d’une équipe de 20 ingénieurs
1 commentaires
Avis sur Hacker News
J’ai l’impression d’être arrivé à un palier, et je ne sais pas comment passer à l’étape suivante. En ce moment, j’utilise en continu le forfait Codex à 100 $/mois avec 5.5-xhigh, et ça me semble suffisant
Je réfléchis à la suite, je précise la demande jusqu’au stade juste avant l’implémentation via une session de chat, puis je laisse Codex traiter le travail par commits et je vérifie rapidement sur un serveur de développement local. Si besoin, je demande des corrections, puis je lui fais faire le commit, avant de lui demander de recommander l’étape suivante à partir de la spec. De toute façon, il faut parfois « approuver » des requêtes qui sortent du sandbox
Je n’ai pas encore trouvé de tâche qui mérite vraiment de tourner toute la nuit. Je pourrais lui confier un gros plan d’un coup, mais comme j’ai souvent envie de modifier un peu les livrables intermédiaires, ça me paraît être du gaspillage
Ensuite, je devrais sans doute regarder du côté d’une VM dédiée qui permettrait de faire du tunneling pour les requêtes GUI de Codex. Je n’ai pas envie de donner à l’ensemble de mon Mac des droits d’accès « dangereux »
Je ne comprends pas ce que font les gens sur des side projects pour brûler leurs tokens aussi vite, au point d’avoir besoin de deux abonnements à 200 $/mois plus de la facturation de tokens en supplément
Je n’ai trouvé qu’un seul cas où laisser l’IA mouliner pendant des heures a un peu de sens. Je fais du reverse engineering sur un widget contenant cinq images de firmware, et j’ai dumpé les binaires pour demander à l’IA de décompiler et d’analyser des projets firmware entremêlés. C’est complexe, mais le périmètre est très bien défini. Ce n’est pas tant difficile que volumineux, et le résultat n’est qu’une masse de texte ressemblant à du C, purement informative, pas quelque chose qui puisse être compilé directement. La qualité de sortie dépend fortement de l’assembleur en entrée, et l’ensemble du livrable est une forme de documentation sous forme de code
Le risque est nul, donc ça ne me dérange pas de laisser l’IA travailler sans supervision autant qu’elle veut. Malgré tout, une fois que l’IA a martelé ça en une espèce de projet C reconnaissable à partir de l’assembleur, c’est bien plus facile à lire et à interpréter pour moi. J’y vois une victoire facile
Ils demandent qu’on leur crée un programme, puis dès qu’il est généré, ils demandent aussitôt à l’IA comment l’exécuter. S’il y a un bug, ils demandent à l’IA ce qui ne va pas, ou bien ils jettent tout et recommencent avec un autre modèle ou un autre harnais
Exemple : https://m.youtube.com/watch?v=xc1296HY8Fw&ra=m
Ça n’a absolument rien à voir avec le flux de travail professionnel que tu décris. C’est plus proche d’un jouet grand public
J’ai dépensé environ 4,8 $ pour 320 000 000 tokens. Quand j’utilisais le forfait Claude, il y avait cette pression que le LLM devait toujours être en train de faire quelque chose pour justifier le prix. Depuis que je suis passé à DeepSeek, je n’ai plus cette sensation. Je ne culpabilise pas si je n’utilise pas un abonnement, et je ne m’inquiète pas non plus des quotas. Il suffit de payer plus. L’absence de limite horaire se ressent particulièrement en exécution parallèle
Acheter plus de tokens ne fait pas « monter de niveau » la capacité de réflexion. Ceux qui font tourner des choses plus automatisées risquent surtout d’aller plus vite que leur propre pensée, et ça finira par les rattraper
Sur une RTX 5090, je fais tourner Trellis2 -> ultrashapes -> Trellis2 -> raccordement du rigging et mise en place de l’animation
Cela dit, 99 % de ce travail, c’est juste Codex qui attend les sorties. Même quand ça tourne 12 heures, l’essentiel consiste seulement à définir beaucoup de sleep. Je n’ai encore jamais épuisé mes tokens. Avec Codex à 100 $/mois, je faisais tourner 10 agents en même temps en codant le pipeline d’assets comme un forcené, et j’ai atteint la limite hebdomadaire en environ 3 jours, donc je suis passé à l’offre supérieure. Le forfait à 200 $/mois donne 4 fois plus de crédits, donc je n’ai encore jamais touché le mur et je peux y aller à fond
« Le point de départ, c’est l’auto-hébergement. On achète une machine, on fait tourner un modèle open source en local, et ensuite on ne paie plus au token », mais le coût de l’électricité n’est pas gratuit
À mes yeux, au final on paie une prime pour la confidentialité, et pour moi ça en vaut la peine
Donc dans mon cas, il n’y a pas eu de coût matériel supplémentaire : c’était un achat de remplacement
Faire tourner des modèles d’IA à la maison sur cette machine, c’est un choix personnel, et si besoin j’utiliserai OpenRouter
J’admets que le calcul économique de cet article est correct. Mais je trouve profondément triste qu’on en arrive à n’être plus que des gens qui entretiennent des machines faisant le travail que nous aimions autrefois. À long terme, il y a peut-être un sens à s’attarder sur ce genre de nuances
L’erreur que j’ai faite dans ma vie — et qu’il est désormais difficile de corriger, vu mon âge — a été de croire que continuer à tirer assez d’accomplissement de mon travail pourrait compenser l’absence d’autres formes d’épanouissement personnel. J’ai toujours aimé pouvoir aider directement les gens grâce à un travail que j’aimais et dans lequel j’étais bon, et cela atténuait la tristesse de trouver difficile de construire une vie de famille traditionnelle
J’ai toujours pensé que je pourrais retrouver cette joie sous de nouvelles formes, mais à moins qu’il n’y ait de nouveau un rééquilibrage supplémentaire vers l’effort humain, même le petit plaisir d’explorer ce genre de choses avec mon matériel, à ma manière, ne suffira pas
Le monde que nous avons créé nous-mêmes est sombre. Ces jours-ci, j’ai peur d’y vieillir davantage
Acheter une 6000 coûtera certes 7 à 8 000 dollars, mais la valeur de revente a de fortes chances de rester assez bonne. Une 3090 vaut encore plus de 50 % de son prix public conseillé. Même sans faire de LLM, cela reste une proposition intéressante pour l’entraînement de modèles de vision par réseaux neuronaux convolutifs « traditionnels ». Avec 96 Go, on peut utiliser des tailles de batch énormes. La principale raison d’upgrader, c’est que les performances par watt ont presque doublé. Par exemple, une 4000 Pro Blackwell tourne à peu près à la moitié de la consommation d’une 3090 pour des performances similaires
Les gens ont tendance à supposer qu’une dépense en capital disparaît simplement, mais comme on l’a vu avec la RAM, mieux vaut ne pas partir du principe qu’on ne pourra pas revendre si le besoin s’en fait sentir
J’ai fait les calculs, et hors confidentialité ça n’avait pas de sens. Je l’ai quand même fait. [0]
0 - https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
D’un point de vue purement consommation électrique, où se situe le point d’équilibre ?
Je n’arrive vraiment pas à comprendre comment les gens dépensent autant
J’utilise le plan Cursor à 60 $/mois en mode Auto, et même en lui faisant planifier et coder tous les soirs, 4 jours par semaine, je ne me suis jamais approché de la limite incluse
Qu’est-ce qu’ils font différemment pour que ça coûte autant ?
Ils utilisent de l’usage à la demande, d’autres modèles payants, ou des modes plus élevés ? Je ne vois pas pourquoi ce serait nécessaire. Sur les tâches sur lesquelles je travaille, la sortie d’Auto est incroyablement bonne, et je n’ai encore jamais rencontré de problème qu’il n’était pas capable de traiter à un niveau suffisant
En entretien pour recruter quelqu’un dans l’équipe au travail, des candidats disent qu’ils dépensent 2 k$/mois en tokens dans leur poste actuel. Je n’arrive pas à imaginer ce qui peut bien se passer pour en arriver là
Dans une petite startup, on dépensait 200 $/mois pour le plan Max. Maintenant, pour le même niveau d’utilisation, on dépense quelques milliers de dollars par mois avec Claude Enterprise
Anthropic subventionne l’usage grand public et prend une marge assez confortable sur le zero data retention (ZDR) pour les entreprises
Par exemple, je peux demander à un agent d’implémenter une nouvelle fonctionnalité s’il a accès au navigateur, aux logs, aux métriques, à GitHub et aux logs de CI
S’il y a quelques bug reports dans Slack, je lance quelques agents de plus. Si le PM veut des ajustements UI, je lance un agent. Une grande partie du travail des développeurs n’est pas forcément complexe, et moi je peux simplement relire la PR finale et laisser des commentaires comme je le ferais à un collègue. Ensuite mon agent repart, corrige selon les commentaires et redemande une review
Pendant ce temps, je peux consacrer mon attention réelle à des fonctionnalités plus lourdes, à des documents de conception, à de l’analyse de données, etc.
Pour un usage perso, je dépense 300 $/mois, et plusieurs milliers au travail. Les agents peuvent vraiment transformer la productivité, et la valeur est largement au rendez-vous par rapport au coût
Du point de vue de l’entreprise, la question est de savoir s’il vaut mieux payer quelques milliers de dollars par mois, ou recruter un ingénieur supplémentaire qui coûte plusieurs centaines de milliers de dollars par an en coût complet. À l’heure actuelle, pour moi, c’est au moins un multiplicateur x2
Vu le contexte dans lequel j’interagis avec ce genre de personnes, c’est probablement la réponse la plus simple à une question assez déroutante. À moins de gaspiller délibérément des crédits, dépenser 2 k$/mois ne me paraît même pas plausible
Quand j’utilise l’IA, je n’utilise que l’outil brut, et le contexte, c’est le code exact sur lequel je travaille. J’essaie de voir si ça aide à résoudre un problème précis, et je comprends suffisamment le reste du codebase pour juger si la réponse est bonne ou mauvaise
Même des choses de bas niveau peuvent faire trébucher l’agent. Là encore, il essayait de ne pas mal interpréter une erreur disant qu’une fonction exigeait un bool en retour, a tenté 10 variantes de la même chose, puis j’ai dû l’arrêter. Les skills peuvent aussi poser problème. Par exemple, si on lui en donne l’autorisation, il adore aller lire le code source des bibliothèques que j’utilise. C’est un terrier de lapin
Si l’idée est que « le coût initial est élevé et que les modèles réellement utilisables à la maison sont plus faibles que ceux des labos de pointe, donc cela n’est rentable que si des tâches longues peuvent garder le matériel occupé toute la nuit avec des modèles lents et bon marché », alors ce n’est pas un article sur l’IA coding à la maison, c’est un article sur le vibe coding à la maison
Je ne suis pas d’accord avec une bonne partie de cet article. J’écris ce commentaire sur un ordinateur domestique avec 64 Go de RAM, sans GPU, et je fais beaucoup d’IA coding en dépensant très peu
Je fais tourner Gemma 4 26b (mixture of experts) et Qwen 3 coder avec Ollama. J’utilise l’autocomplétion de code GitHub Copilot, et aussi les free tiers des API Gemini et Mistral. J’ai également un compte API Gemini payant, mais maintenant c’est prépayé, donc plus de risque de recevoir par erreur une facture de 1 000 $. On peut déjà faire pas mal de choses avec Gemini Flash Lite 3.1
Rien de tout cela ne consiste à brûler des tokens pour produire un gros tas de code spaghetti coûteux, mais cela relève clairement de l’IA coding
Avec ça, je ne peux pas faire du vibe coding version « canon à slop », mais c’est du code perso dont je ne veux pas qu’il finisse en spaghetti, donc je ne cherche pas à faire du vibe coding. Ce que je veux, c’est qu’on me retrouve instantanément des posts Stack Overflow et Reddit dans une boîte de chat, qu’on m’épargne la douleur physique de devoir réellement taper du code TypeScript, et qu’on réduise le temps perdu à déboguer sans fin des problèmes Docker obscurs. Je suis développeur backend, donc ma patience pour le frontend est négative, et même si j’aime Docker, je n’ai aucune patience pour ses problèmes agaçants et ses bizarreries sans fin. Ce modèle fait ça très bien
La plupart des meilleurs ingénieurs que je connais sont passés bien davantage au vibe coding cette année. Les possibilités sont nettement meilleures aujourd’hui
Utiliser directement l’API de la plateforme DeepSeek et connecter le modèle V4 Flash à un harnais comme Opencode est déjà largement satisfaisant. J’ai dû dépenser environ 10 $ sur quelques semaines
J’ai aussi regardé les modèles en self-hosting, mais le matériel est trop cher pour l’instant
C’est 5 $ le premier mois, puis 10 $, et on peut annuler à tout moment. On peut aussi continuer à obtenir des réductions avec une nouvelle adresse e-mail
Cela dit, c’est intéressant. Qu’obtient-on à ce prix ? Seulement du code, ou aussi, par exemple, de la génération d’images ?
Chez vous, les gens font quoi au juste ? Avec le forfait Claude à 20 $ par mois, je code environ 5 applis, et bien sûr je peux tomber sur des limites de débit, mais je ne vois pas ce qu’il faut faire pour brûler 3 k$ de jetons
Il y a l’analyse des causes racines des problèmes de support client exécutée chaque heure, des automatisations quotidiennes comme l’analyse de logs, ainsi que des automatisations hebdomadaires ou mensuelles pour le suivi et l’exécution des KPI
Quand je faisais des side projects, c’était bien plus facile de rester dans la limite d’un forfait à 20 $ par mois parce que 1) le périmètre était assez bien défini et 2) il n’y avait ni utilisateurs ni besoin d’automatisation. Maintenant, j’atteins souvent la limite hebdomadaire et j’ai besoin de plusieurs forfaits Max
Ceux qui brûlent des jetons semblent utiliser des configurations du genre plusieurs sous-agents, 50 compétences chargées, 40 outils MCP. Tout cela remplit le contexte à chaque tour
C’était particulièrement bien pour des projets persos à la maison. Même après avoir passé la journée sur les tâches pénibles de l’entreprise, j’avais beaucoup plus envie de travailler sur mon side project puisque je n’avais pas à gérer les tâches répétitives
La plupart des gens qui brûlent chez eux des milliers de dollars de jetons sont probablement en train de produire un énorme tas de slop
La plupart du code peut être écrit rapidement avec un clavier, IntelliSense et juste quelques modèles de génération de code
Mais les gens sont devenus dépendants d’une IA qui fait tout à leur place, et maintenant les tech bros ont commencé à les essorer comme des dealers
Il y a quelques mois, j’ai investi environ 4 000 $ dans un NVIDIA DGX Spark. Il a 128 Go de RAM unifiée et une puce NVIDIA GB10
Grâce à la RAM, aux nombreux cœurs CPU et au SSD NVMe de 4 To, c’est aussi un ordinateur Linux ARM64 assez performant même sans GPU, et jusqu’ici c’est surtout comme ça que je l’utilise. Mais je me demande quel modèle tourne le mieux sur ce matériel, surtout pour coder
Je reste sur vLLM comme moteur d’inférence, et j’ai assemblé la boucle à 2 agents avec Opencode
Le planificateur Qwen3.6-35B-A3B tourne correctement à environ 50 à 55 jetons par seconde, et le codeur Qwen3-Coder-30B-A3B-Instruct sort autour de 30 à 35 jetons. Quand les deux agents sont lancés et en attente de travail, l’usage mémoire est d’environ 112 Go sur 128 Go
C’est plutôt pas mal. Je bricole dessus en lui faisant désassembler des jeux MS-DOS des années 1980, et c’est un type de tâche qui convient bien à cette configuration. Ce n’est pas le plus rapide du monde, mais avec une fenêtre de contexte de 256k jetons pour le planificateur et 128k pour l’agent de codage, ils peuvent se transmettre des listes de tâches assez longues et les avaler sans broncher. Le seul vrai problème, c’est que même avec des prompts très serrés, l’agent de codage hallucine comme s’il avait pris du LSD. Cela dit, l’agent de planification semble assez bon pour repérer les hallucinations et redécouper les tâches avant de les renvoyer au codeur
Génial. Je vais sans doute être triste dans quelques mois quand il faudra rendre le matériel de test
En plus, j’ai aussi testé Deepseek v4 Flash avec la configuration d’Antirez(https://github.com/antirez/ds4), et c’est vraiment excellent, en plus d’être très facile à lancer. En revanche, sur le Spark c’est assez lent, autour de 14 jetons par seconde. Et à moins d’avoir deux Spark, on ne fera probablement tourner que ce seul modèle à la fois. Il mange toute la RAM
Pour moi, investir dans le hardware semble être la bonne voie
J’ai appris à coder il y a presque 24 ans, et je continue encore aujourd’hui à apprendre de nouvelles choses. Pendant tout ce temps, je n’ai jamais eu besoin de dépendre d’un modèle d’abonnement pour apprendre ou construire du neuf
Si les LLM et les agents deviennent les outils de base du codage et de la création logicielle, au moins pour les prochaines années, investir entre $2000 et $3000 dans du hardware comme un Halo Strix PC paraît être un choix naturel
J’ai une GTX1080ti de 2018 environ, inutilisée, et elle a déjà largement amorti sa valeur depuis des années, donc aujourd’hui son coût matériel est nul
Elle fait tourner suffisamment bien Gemma e4b multimodal, qwen 3.5 8b et le modèle d’embedding qwen 4b
Pour les LLM, j’obtiens plus de 40 tokens par seconde
En charge, elle tire 350 W à la prise, 3 W en économie d’énergie et 80 W au repos. Mon électricité coûte £0.035 par kWh, ce qui est plutôt bas pour le Royaume-Uni, car je décale la charge via une batterie domestique
Cela revient à environ 1 penny pour 144k tokens en sortie, ce qui prend théoriquement une heure
Même avec du hardware gratuit et une électricité environ 10 fois moins chère que le tarif normal, ce n’est qu’un peu moins cher que d’utiliser un modèle deepseek v4 flash bien plus puissant
Si on combine les récentes initiatives de la Maison-Blanche concernant Anthropic et le fait que la prochaine génération de bons modèles pourrait avoir besoin de plus de 128 GB pour bien tourner, ce n’est pas très encourageant pour l’avenir
Je ne rabaisse pas le local. J’en fais partie moi-même et j’utilise aussi des abonnements, mais il faut regarder les compromis avec lucidité
Mais ça donne l’impression de mesurer la productivité au nombre de lignes de code. Dans mon travail, je n’ai l’impression de tirer aucun bénéfice d’aucun abonnement
Bien sûr, je ne peux pas recréer toute une app CRUD ennuyeuse avec un seul prompt, mais tant pis
J’ai commencé à utiliser une approche brain -> worker pour coder
Le Brain, c’est le modèle cher et intelligent de mon abonnement Claude. Quand c’est possible, j’utilise Fable 5, sinon en ce moment Opus
Le Worker est un modèle local (qwen3.6:46B), déployé sur un GPU de 36 GB avec Opencode + Ollama
Le Brain s’occupe de l’analyse/de la conception et de la génération des tâches. Les tâches doivent être simples et claires pour que le worker puisse les traiter. Le Worker code, puis le Brain vérifie et, si nécessaire, crée des tâches de correction. En ce moment, le ratio corrections/tâches est d’environ 1:20
Si vous n’avez pas de GPU à la maison, qwen3.6 est aussi assez bon marché dans le cloud
C’est plutôt une configuration expérimentale montée par curiosité, mais ça marche mieux que prévu. Elle me permet en ce moment de faire tourner en continu trois agents de codage depuis 4 jours. J’ai expliqué ici comment j’en suis arrivé à cette configuration : https://news.ycombinator.com/item?id=48520757
Peut-on désormais faire tourner l’équivalent d’Opus 4.6 en local ? J’entends des réponses contradictoires en permanence
Si c’était possible pour $10k, j’arrêterais mon abonnement. Le problème, c’est que je n’ai pas envie de dépenser cet argent juste pour vérifier moi-même
En pratique, pour protéger les marges des datacenters, personne ne propose aux consommateurs une configuration unique capable de faire tourner autant de VRAM. Apple l’a déjà permis par le passé, mais a arrêté, et ces machines se négocient aujourd’hui à plus de $20k pièce sur eBay
Il est possible de faire tourner des modèles très puissants avec des cartes des séries 3090/4090/5090/6000. Mais si vous voulez du “niveau modèle de pointe”, il faut compter au minimum environ $22k en neuf. En occasion, on peut réduire fortement le coût initial et monter son propre serveur, mais la consommation électrique risque d’être 4 à 6 fois plus élevée, voire davantage
À l’heure actuelle, ce n’est tout simplement pas faisable pour un particulier
À l’heure actuelle, impossible de monter une telle machine à partir de zéro pour moins de $100K. Mais on en est aussi à un moment où il est difficile de mettre un prix sur l’autonomie