Coder avec l’IA chez soi sans dépenser comme une entreprise

(stephen.bochinski.dev)

5 points par GN⁺ 2026-06-15 | 2 commentaires | Partager sur WhatsApp

Pour réduire le coût du coding IA à titre personnel, trois options se dégagent : l’auto-hébergement, la location d’API de modèles open source, et l’optimisation des abonnements frontier
L’auto-hébergement consiste à acheter du matériel pour exécuter localement des modèles open source, sans payer ensuite au token, mais le coût initial est élevé et les modèles qu’on peut faire tourner chez soi restent moins puissants que ceux des laboratoires frontier
Louer des modèles open source via une API permet d’éviter d’immobiliser des milliers de dollars dans une configuration GPU, d’échapper au travail nécessaire pour tirer de bonnes performances de ces modèles, et de passer facilement dès le mois suivant à une option moins chère ou meilleure
Les abonnements frontier d’OpenAI et d’Anthropic, pour environ 400 dollars par mois, peuvent offrir l’équivalent d’environ 2 800 dollars d’usage API au prix catalogue, mais les workflows IA natifs à grande échelle consomment vite les tokens inclus
L’approche la plus adaptée est une stratégie hybride : utiliser les abonnements frontier pour le raisonnement difficile et la rédaction de spécifications, et les API open source pour les petites tâches mécaniques

Trois options

Il existe trois façons de faire du coding IA chez soi sans dépenses au niveau d’une entreprise, et le bon choix dépend en grande partie de la confiance que l’on accorde aux sorties de matériel et de modèles prévues sur les 12 prochains mois
L’auto-hébergement consiste à acheter soi-même le matériel et à exécuter localement des modèles open source, sans coût par token par la suite
- Le coût initial est élevé, et les modèles qu’on peut réellement faire tourner chez soi restent moins puissants que ceux publiés par les laboratoires frontier
- Ce n’est rentable que si le matériel peut être utilisé en continu pour des tâches longues exécutées en arrière-plan avec des modèles lents et peu coûteux
- Pour la plupart des gens, il est difficile de maintenir durablement le matériel domestique sous une telle charge, et le hardware acheté aujourd’hui peut sembler être un mauvais choix dans un an
La location d’API de modèles open source consiste à louer auprès d’un fournisseur les mêmes modèles open source via une tarification API, et c’est le choix qui convient à la plupart des gens
- Cela évite d’investir des milliers de dollars dans une seule configuration GPU, ainsi que le travail nécessaire pour obtenir de bonnes performances sur des modèles ouverts pour des exécutions longues
- Il est facile de passer le mois suivant à une option moins chère ou meilleure, sans avoir à revendre du matériel
- Des services comme OpenRouter rendent ce changement presque aussi simple qu’une modification d’une seule ligne
L’optimisation des abonnements frontier consiste à tirer le maximum des abonnements OpenAI et Anthropic
- Avec des forfaits d’environ 400 dollars par mois, on peut obtenir l’équivalent d’environ 2 800 dollars d’usage API au prix catalogue, ce qui représente une forte remise tant qu’on n’atteint pas les limites
- Les forfaits mesurent l’usage, et les workflows IA natifs à grande échelle épuisent rapidement les tokens inclus
- Cela fonctionne bien pour un travail directement piloté par des humains, mais reste insuffisant comme moteur pour des agents qui tournent toute la journée

La combinaison qui a le mieux fonctionné

La formule la plus efficace a été de combiner abonnements frontier et API de modèles open source
Quelques abonnements frontier sont conservés pour le raisonnement difficile et la rédaction de spécifications, tandis que les petites tâches mécaniques sont traitées via la tarification API de modèles open source
En s’appuyant sur le développement piloté par les spécifications, les modèles coûteux produisent le plan et les modèles bon marché le remplissent
Bien exécutée, cette approche permet d’obtenir pour environ 1 000 dollars en un mois une production équivalente à celle d’une équipe de 20 ingénieurs

2 commentaires

pencil6962 2026-06-19

En pratique, il suffit simplement de s’abonner à un modèle bon marché. Ça rejoint plus ou moins ce qui est dit dans l’article.

GN⁺ 2026-06-15

Avis sur Hacker News

J’ai l’impression d’être arrivé à un palier, et je ne sais pas comment passer à l’étape suivante. En ce moment, j’utilise en continu le forfait Codex à 100 $/mois avec 5.5-xhigh, et ça me semble suffisant
Je réfléchis à la suite, je précise la demande jusqu’au stade juste avant l’implémentation via une session de chat, puis je laisse Codex traiter le travail par commits et je vérifie rapidement sur un serveur de développement local. Si besoin, je demande des corrections, puis je lui fais faire le commit, avant de lui demander de recommander l’étape suivante à partir de la spec. De toute façon, il faut parfois « approuver » des requêtes qui sortent du sandbox
Je n’ai pas encore trouvé de tâche qui mérite vraiment de tourner toute la nuit. Je pourrais lui confier un gros plan d’un coup, mais comme j’ai souvent envie de modifier un peu les livrables intermédiaires, ça me paraît être du gaspillage
Ensuite, je devrais sans doute regarder du côté d’une VM dédiée qui permettrait de faire du tunneling pour les requêtes GUI de Codex. Je n’ai pas envie de donner à l’ensemble de mon Mac des droits d’accès « dangereux »
Je ne comprends pas ce que font les gens sur des side projects pour brûler leurs tokens aussi vite, au point d’avoir besoin de deux abonnements à 200 $/mois plus de la facturation de tokens en supplément
- C’est parce que tu abordes le problème comme un ingénieur, et non comme un « influenceur » ou un « développeur x10 ». Tu le vois comme un problème à résoudre par l’ingénierie, avec l’IA comme simple outil. D’après mon expérience, il y a très peu de problèmes pour lesquels un ingénieur a besoin de génération de code IA non supervisée pendant des heures
  Je n’ai trouvé qu’un seul cas où laisser l’IA mouliner pendant des heures a un peu de sens. Je fais du reverse engineering sur un widget contenant cinq images de firmware, et j’ai dumpé les binaires pour demander à l’IA de décompiler et d’analyser des projets firmware entremêlés. C’est complexe, mais le périmètre est très bien défini. Ce n’est pas tant difficile que volumineux, et le résultat n’est qu’une masse de texte ressemblant à du C, purement informative, pas quelque chose qui puisse être compilé directement. La qualité de sortie dépend fortement de l’assembleur en entrée, et l’ensemble du livrable est une forme de documentation sous forme de code
  Le risque est nul, donc ça ne me dérange pas de laisser l’IA travailler sans supervision autant qu’elle veut. Malgré tout, une fois que l’IA a martelé ça en une espèce de projet C reconnaissable à partir de l’assembleur, c’est bien plus facile à lire et à interpréter pour moi. J’y vois une victoire facile
- J’ai vu pas mal de vidéos de non-professionnels qui fabriquent des trucs avec l’IA, et ceux qui brûlent 12 heures de calcul ne lisent littéralement même pas la sortie et ne comprennent pas ce qu’ils font
  Ils demandent qu’on leur crée un programme, puis dès qu’il est généré, ils demandent aussitôt à l’IA comment l’exécuter. S’il y a un bug, ils demandent à l’IA ce qui ne va pas, ou bien ils jettent tout et recommencent avec un autre modèle ou un autre harnais
  Exemple : https://m.youtube.com/watch?v=xc1296HY8Fw&ra=m
  Ça n’a absolument rien à voir avec le flux de travail professionnel que tu décris. C’est plus proche d’un jouet grand public
- J’ai rétrogradé Claude vers le forfait à 20 $/mois, et maintenant je l’utilise presque uniquement pour le chat web. Pour le code, j’utilise Claude Code avec DeepSeek configuré en facturation API
  J’ai dépensé environ 4,8 $ pour 320 000 000 tokens. Quand j’utilisais le forfait Claude, il y avait cette pression que le LLM devait toujours être en train de faire quelque chose pour justifier le prix. Depuis que je suis passé à DeepSeek, je n’ai plus cette sensation. Je ne culpabilise pas si je n’utilise pas un abonnement, et je ne m’inquiète pas non plus des quotas. Il suffit de payer plus. L’absence de limite horaire se ressent particulièrement en exécution parallèle
- « Réfléchir à ce qu’il faut faire ensuite », c’est le vrai goulot d’étranglement que découvre toute personne qui essaie réellement de produire du travail. Si le système suit la vitesse de ma réflexion, alors il fait bien son travail
  Acheter plus de tokens ne fait pas « monter de niveau » la capacité de réflexion. Ceux qui font tourner des choses plus automatisées risquent surtout d’aller plus vite que leur propre pensée, et ça finira par les rattraper
- J’utilise Codex à 200 $/mois pour créer des jeux pour mes enfants, pour le plaisir et par curiosité. Je suis développeur, j’ai déjà fait des jeux, mais jamais de game dev. Il y a bien des tâches qui tournent toute la nuit, mais la plupart consistent à « s’occuper de mon pipeline d’assets 3D et passer du temps à y ajouter des choses »
  Sur une RTX 5090, je fais tourner Trellis2 -> ultrashapes -> Trellis2 -> raccordement du rigging et mise en place de l’animation
  Cela dit, 99 % de ce travail, c’est juste Codex qui attend les sorties. Même quand ça tourne 12 heures, l’essentiel consiste seulement à définir beaucoup de sleep. Je n’ai encore jamais épuisé mes tokens. Avec Codex à 100 $/mois, je faisais tourner 10 agents en même temps en codant le pipeline d’assets comme un forcené, et j’ai atteint la limite hebdomadaire en environ 3 jours, donc je suis passé à l’offre supérieure. Le forfait à 200 $/mois donne 4 fois plus de crédits, donc je n’ai encore jamais touché le mur et je peux y aller à fond
« Le point de départ, c’est l’auto-hébergement. On achète une machine, on fait tourner un modèle open source en local, et ensuite on ne paie plus au token », mais le coût de l’électricité n’est pas gratuit
À mes yeux, au final on paie une prime pour la confidentialité, et pour moi ça en vaut la peine
- Justement, j’avais besoin d’un nouveau portable, et j’ai acheté à un ami un M1 Max d’occasion pour assez peu cher, tout en étant suffisamment rapide pour recompiler d’autres choses qui m’intéressent
  Donc dans mon cas, il n’y a pas eu de coût matériel supplémentaire : c’était un achat de remplacement
  Faire tourner des modèles d’IA à la maison sur cette machine, c’est un choix personnel, et si besoin j’utiliserai OpenRouter
  J’admets que le calcul économique de cet article est correct. Mais je trouve profondément triste qu’on en arrive à n’être plus que des gens qui entretiennent des machines faisant le travail que nous aimions autrefois. À long terme, il y a peut-être un sens à s’attarder sur ce genre de nuances
  L’erreur que j’ai faite dans ma vie — et qu’il est désormais difficile de corriger, vu mon âge — a été de croire que continuer à tirer assez d’accomplissement de mon travail pourrait compenser l’absence d’autres formes d’épanouissement personnel. J’ai toujours aimé pouvoir aider directement les gens grâce à un travail que j’aimais et dans lequel j’étais bon, et cela atténuait la tristesse de trouver difficile de construire une vie de famille traditionnelle
  J’ai toujours pensé que je pourrais retrouver cette joie sous de nouvelles formes, mais à moins qu’il n’y ait de nouveau un rééquilibrage supplémentaire vers l’effort humain, même le petit plaisir d’explorer ce genre de choses avec mon matériel, à ma manière, ne suffira pas
  Le monde que nous avons créé nous-mêmes est sombre. Ces jours-ci, j’ai peur d’y vieillir davantage
- Je pense qu’on peut attendre des cartes de génération actuelle une durée de vie d’au moins 5 ans. Même une 3090 reste utile grâce à ses 24 Go de RAM, car pendant des années le facteur limitant du machine learning à domicile a justement été la mémoire
  Acheter une 6000 coûtera certes 7 à 8 000 dollars, mais la valeur de revente a de fortes chances de rester assez bonne. Une 3090 vaut encore plus de 50 % de son prix public conseillé. Même sans faire de LLM, cela reste une proposition intéressante pour l’entraînement de modèles de vision par réseaux neuronaux convolutifs « traditionnels ». Avec 96 Go, on peut utiliser des tailles de batch énormes. La principale raison d’upgrader, c’est que les performances par watt ont presque doublé. Par exemple, une 4000 Pro Blackwell tourne à peu près à la moitié de la consommation d’une 3090 pour des performances similaires
  Les gens ont tendance à supposer qu’une dépense en capital disparaît simplement, mais comme on l’a vu avec la RAM, mieux vaut ne pas partir du principe qu’on ne pourra pas revendre si le besoin s’en fait sentir
- Avec du solaire, cela peut en pratique se rapprocher d’une forme de gratuité. Du coup, je me demande si en journée le calcul IA privé ne devient pas effectivement moins cher
- Payer davantage pour le matériel, c’est aussi un coût supplémentaire
  J’ai fait les calculs, et hors confidentialité ça n’avait pas de sens. Je l’ai quand même fait. [0]
  0 - https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
- Il y a une expérience de pensée intéressante derrière « l’électricité n’est pas gratuite ». Si je dois passer la journée à produire quelque chose qu’une IA ferait en une journée, lequel des deux consomme le plus d’électricité ?
  D’un point de vue purement consommation électrique, où se situe le point d’équilibre ?
Je n’arrive vraiment pas à comprendre comment les gens dépensent autant
J’utilise le plan Cursor à 60 $/mois en mode Auto, et même en lui faisant planifier et coder tous les soirs, 4 jours par semaine, je ne me suis jamais approché de la limite incluse
Qu’est-ce qu’ils font différemment pour que ça coûte autant ?
Ils utilisent de l’usage à la demande, d’autres modèles payants, ou des modes plus élevés ? Je ne vois pas pourquoi ce serait nécessaire. Sur les tâches sur lesquelles je travaille, la sortie d’Auto est incroyablement bonne, et je n’ai encore jamais rencontré de problème qu’il n’était pas capable de traiter à un niveau suffisant
En entretien pour recruter quelqu’un dans l’équipe au travail, des candidats disent qu’ils dépensent 2 k$/mois en tokens dans leur poste actuel. Je n’arrive pas à imaginer ce qui peut bien se passer pour en arriver là
- Le plan Enterprise de Claude coûte 30 à 40 fois plus cher que le plan grand public
  Dans une petite startup, on dépensait 200 $/mois pour le plan Max. Maintenant, pour le même niveau d’utilisation, on dépense quelques milliers de dollars par mois avec Claude Enterprise
  Anthropic subventionne l’usage grand public et prend une marge assez confortable sur le zero data retention (ZDR) pour les entreprises
- Si on peut donner aux agents un large niveau d’accès et une boucle de feedback efficace, je peux me contenter de donner la direction et de vérifier le livrable final
  Par exemple, je peux demander à un agent d’implémenter une nouvelle fonctionnalité s’il a accès au navigateur, aux logs, aux métriques, à GitHub et aux logs de CI
  S’il y a quelques bug reports dans Slack, je lance quelques agents de plus. Si le PM veut des ajustements UI, je lance un agent. Une grande partie du travail des développeurs n’est pas forcément complexe, et moi je peux simplement relire la PR finale et laisser des commentaires comme je le ferais à un collègue. Ensuite mon agent repart, corrige selon les commentaires et redemande une review
  Pendant ce temps, je peux consacrer mon attention réelle à des fonctionnalités plus lourdes, à des documents de conception, à de l’analyse de données, etc.
  Pour un usage perso, je dépense 300 $/mois, et plusieurs milliers au travail. Les agents peuvent vraiment transformer la productivité, et la valeur est largement au rendez-vous par rapport au coût
  Du point de vue de l’entreprise, la question est de savoir s’il vaut mieux payer quelques milliers de dollars par mois, ou recruter un ingénieur supplémentaire qui coûte plusieurs centaines de milliers de dollars par an en coût complet. À l’heure actuelle, pour moi, c’est au moins un multiplicateur x2
- Il est aussi possible que ces gens veuillent juste frimer avec leurs talents de prompt. En mode : quel ingénieur avec un minimum d’ego oserait montrer qu’il dépense moins de 2 k$/mois ?
  Vu le contexte dans lequel j’interagis avec ce genre de personnes, c’est probablement la réponse la plus simple à une question assez déroutante. À moins de gaspiller délibérément des crédits, dépenser 2 k$/mois ne me paraît même pas plausible
- D’accord. Mais pas mal de ces gens parlent aussi beaucoup de leurs instructions/règles/skills/features personnalisées. Et là, ils consomment déjà une grosse partie de la fenêtre de contexte avant même de commencer
  Quand j’utilise l’IA, je n’utilise que l’outil brut, et le contexte, c’est le code exact sur lequel je travaille. J’essaie de voir si ça aide à résoudre un problème précis, et je comprends suffisamment le reste du codebase pour juger si la réponse est bonne ou mauvaise
- Il y a plusieurs facteurs. 1) Si le prompt n’est pas assez précis pour réduire le périmètre, l’agent peut balayer tout le codebase, revenir sans cesse aux mêmes endroits et finir par se bloquer. 2) En général, ça se passe bien même sans vérifier la sortie, mais parfois il ne comprend pas et produit n’importe quoi, et si on ne lit pas le code pour identifier le problème, impossible de s’en sortir uniquement au prompt. Si on le laisse en automatique, il brûle des tokens
  Même des choses de bas niveau peuvent faire trébucher l’agent. Là encore, il essayait de ne pas mal interpréter une erreur disant qu’une fonction exigeait un bool en retour, a tenté 10 variantes de la même chose, puis j’ai dû l’arrêter. Les skills peuvent aussi poser problème. Par exemple, si on lui en donne l’autorisation, il adore aller lire le code source des bibliothèques que j’utilise. C’est un terrier de lapin
Si l’idée est que « le coût initial est élevé et que les modèles réellement utilisables à la maison sont plus faibles que ceux des labos de pointe, donc cela n’est rentable que si des tâches longues peuvent garder le matériel occupé toute la nuit avec des modèles lents et bon marché », alors ce n’est pas un article sur l’IA coding à la maison, c’est un article sur le vibe coding à la maison
Je ne suis pas d’accord avec une bonne partie de cet article. J’écris ce commentaire sur un ordinateur domestique avec 64 Go de RAM, sans GPU, et je fais beaucoup d’IA coding en dépensant très peu
Je fais tourner Gemma 4 26b (mixture of experts) et Qwen 3 coder avec Ollama. J’utilise l’autocomplétion de code GitHub Copilot, et aussi les free tiers des API Gemini et Mistral. J’ai également un compte API Gemini payant, mais maintenant c’est prépayé, donc plus de risque de recevoir par erreur une facture de 1 000 $. On peut déjà faire pas mal de choses avec Gemini Flash Lite 3.1
Rien de tout cela ne consiste à brûler des tokens pour produire un gros tas de code spaghetti coûteux, mais cela relève clairement de l’IA coding
- Je ressens pareil. J’utilise Qwen 3.6 35B A3B sur une machine avec 64 Go de RAM et une 5090 de 24 Go. J’ai eu la chance d’acheter un Alienware 16 Area51 environ 15 secondes avant que les gens ne précommandent bêtement trois ans de machines à l’avance et ne ruinent tout
  Avec ça, je ne peux pas faire du vibe coding version « canon à slop », mais c’est du code perso dont je ne veux pas qu’il finisse en spaghetti, donc je ne cherche pas à faire du vibe coding. Ce que je veux, c’est qu’on me retrouve instantanément des posts Stack Overflow et Reddit dans une boîte de chat, qu’on m’épargne la douleur physique de devoir réellement taper du code TypeScript, et qu’on réduise le temps perdu à déboguer sans fin des problèmes Docker obscurs. Je suis développeur backend, donc ma patience pour le frontend est négative, et même si j’aime Docker, je n’ai aucune patience pour ses problèmes agaçants et ses bizarreries sans fin. Ce modèle fait ça très bien
- Il y a clairement des tâches qu’on peut laisser tourner un moment. Je pense que la distinction entre vibe coding et une routine de développement avec intervention humaine va s’estomper à mesure que les workflows seront mieux validés et que les modèles deviendront plus intelligents et moins chers
  La plupart des meilleurs ingénieurs que je connais sont passés bien davantage au vibe coding cette année. Les possibilités sont nettement meilleures aujourd’hui
Utiliser directement l’API de la plateforme DeepSeek et connecter le modèle V4 Flash à un harnais comme Opencode est déjà largement satisfaisant. J’ai dû dépenser environ 10 $ sur quelques semaines
J’ai aussi regardé les modèles en self-hosting, mais le matériel est trop cher pour l’instant
- En utilisant Opencode Go mais uniquement DeepSeek Flash, ça tiendrait probablement plus longtemps. En jetons, cela représente environ 65 $, mais comme c’est une facturation mensuelle il faut tout consommer, donc si l’usage est faible, appeler DeepSeek directement revient moins cher
  C’est 5 $ le premier mois, puis 10 $, et on peut annuler à tout moment. On peut aussi continuer à obtenir des réductions avec une nouvelle adresse e-mail
- Tu veux dire en l’utilisant directement chez DeepSeek ? D’après ce que j’ai compris, sans l’avoir vérifié, d’autres opérateurs IA proposaient certains modèles DeepSeek à un tarif plus bas
  Cela dit, c’est intéressant. Qu’obtient-on à ce prix ? Seulement du code, ou aussi, par exemple, de la génération d’images ?
Chez vous, les gens font quoi au juste ? Avec le forfait Claude à 20 $ par mois, je code environ 5 applis, et bien sûr je peux tomber sur des limites de débit, mais je ne vois pas ce qu’il faut faire pour brûler 3 k$ de jetons
- Ça dépend des cas, mais l’automatisation peut avaler très vite un forfait à 100 ou 200 $ par mois, et brûler des milliers de dollars rien qu’en jetons
  Il y a l’analyse des causes racines des problèmes de support client exécutée chaque heure, des automatisations quotidiennes comme l’analyse de logs, ainsi que des automatisations hebdomadaires ou mensuelles pour le suivi et l’exécution des KPI
  Quand je faisais des side projects, c’était bien plus facile de rester dans la limite d’un forfait à 20 $ par mois parce que 1) le périmètre était assez bien défini et 2) il n’y avait ni utilisateurs ni besoin d’automatisation. Maintenant, j’atteins souvent la limite hebdomadaire et j’ai besoin de plusieurs forfaits Max
- Pareil pour moi. 20 $ par mois me suffisent et je code tous les jours avec
  Ceux qui brûlent des jetons semblent utiliser des configurations du genre plusieurs sous-agents, 50 compétences chargées, 40 outils MCP. Tout cela remplit le contexte à chaque tour
- Moi aussi, c’est similaire, mais je fais encore moi-même une bonne partie de la réflexion et j’utilise l’IA seulement pour accélérer les tâches ennuyeuses que je n’ai pas envie de faire directement, donc je touche moins souvent les limites
  C’était particulièrement bien pour des projets persos à la maison. Même après avoir passé la journée sur les tâches pénibles de l’entreprise, j’avais beaucoup plus envie de travailler sur mon side project puisque je n’avais pas à gérer les tâches répétitives
  La plupart des gens qui brûlent chez eux des milliers de dollars de jetons sont probablement en train de produire un énorme tas de slop
- La réponse courte à « qu’est-ce qu’on fait pour brûler 3 k$ de jetons ? », c’est produire du slop
  La plupart du code peut être écrit rapidement avec un clavier, IntelliSense et juste quelques modèles de génération de code
  Mais les gens sont devenus dépendants d’une IA qui fait tout à leur place, et maintenant les tech bros ont commencé à les essorer comme des dealers
Il y a quelques mois, j’ai investi environ 4 000 $ dans un NVIDIA DGX Spark. Il a 128 Go de RAM unifiée et une puce NVIDIA GB10
Grâce à la RAM, aux nombreux cœurs CPU et au SSD NVMe de 4 To, c’est aussi un ordinateur Linux ARM64 assez performant même sans GPU, et jusqu’ici c’est surtout comme ça que je l’utilise. Mais je me demande quel modèle tourne le mieux sur ce matériel, surtout pour coder
- Je suis justement en train d’enquêter et de faire des tests pour un article sur le Spark que j’écris pour Ars, et je suis tombé un peu par hasard sur une configuration à 2 agents LLM avec Qwen3.6-35B-A3B(nvidia/Qwen3.6-35B-A3B-NVFP4) comme agent de planification, et la version FP8 de Qwen3-Coder-30B-A3B-Instruct (Qwen/Qwen3-Coder-30B-A3B-Instruct-FP8) comme agent de codage
  Je reste sur vLLM comme moteur d’inférence, et j’ai assemblé la boucle à 2 agents avec Opencode
  Le planificateur Qwen3.6-35B-A3B tourne correctement à environ 50 à 55 jetons par seconde, et le codeur Qwen3-Coder-30B-A3B-Instruct sort autour de 30 à 35 jetons. Quand les deux agents sont lancés et en attente de travail, l’usage mémoire est d’environ 112 Go sur 128 Go
  C’est plutôt pas mal. Je bricole dessus en lui faisant désassembler des jeux MS-DOS des années 1980, et c’est un type de tâche qui convient bien à cette configuration. Ce n’est pas le plus rapide du monde, mais avec une fenêtre de contexte de 256k jetons pour le planificateur et 128k pour l’agent de codage, ils peuvent se transmettre des listes de tâches assez longues et les avaler sans broncher. Le seul vrai problème, c’est que même avec des prompts très serrés, l’agent de codage hallucine comme s’il avait pris du LSD. Cela dit, l’agent de planification semble assez bon pour repérer les hallucinations et redécouper les tâches avant de les renvoyer au codeur
  Génial. Je vais sans doute être triste dans quelques mois quand il faudra rendre le matériel de test
  En plus, j’ai aussi testé Deepseek v4 Flash avec la configuration d’Antirez(https://github.com/antirez/ds4), et c’est vraiment excellent, en plus d’être très facile à lancer. En revanche, sur le Spark c’est assez lent, autour de 14 jetons par seconde. Et à moins d’avoir deux Spark, on ne fera probablement tourner que ce seul modèle à la fois. Il mange toute la RAM
- https://www.canirun.ai/?status=tight pourrait répondre à cette question
- Deepseek v4 flash est étonnamment performant pour sa taille, et il est réputé bien tourner sur ce matériel
- Si tu ne le sais toujours pas alors que tu dis « c’est comme ça que je l’utilise », l’article devrait sans doute commencer par « j’ai balancé 4 k$ dans un jouet il y a quelques mois »
- DeepSeek V4 Flash est un modèle de code très compétent qui tourne bien sur le matériel que tu as décrit. Il suffit surtout de trouver une version optimisée pour un usage local
Pour moi, investir dans le hardware semble être la bonne voie
J’ai appris à coder il y a presque 24 ans, et je continue encore aujourd’hui à apprendre de nouvelles choses. Pendant tout ce temps, je n’ai jamais eu besoin de dépendre d’un modèle d’abonnement pour apprendre ou construire du neuf
Si les LLM et les agents deviennent les outils de base du codage et de la création logicielle, au moins pour les prochaines années, investir entre $2000 et $3000 dans du hardware comme un Halo Strix PC paraît être un choix naturel
- Je me suis demandé s’il n’y avait pas une option “gratuite” avec du hardware abandonné
  J’ai une GTX1080ti de 2018 environ, inutilisée, et elle a déjà largement amorti sa valeur depuis des années, donc aujourd’hui son coût matériel est nul
  Elle fait tourner suffisamment bien Gemma e4b multimodal, qwen 3.5 8b et le modèle d’embedding qwen 4b
  Pour les LLM, j’obtiens plus de 40 tokens par seconde
  En charge, elle tire 350 W à la prise, 3 W en économie d’énergie et 80 W au repos. Mon électricité coûte £0.035 par kWh, ce qui est plutôt bas pour le Royaume-Uni, car je décale la charge via une batterie domestique
  Cela revient à environ 1 penny pour 144k tokens en sortie, ce qui prend théoriquement une heure
  Même avec du hardware gratuit et une électricité environ 10 fois moins chère que le tarif normal, ce n’est qu’un peu moins cher que d’utiliser un modèle deepseek v4 flash bien plus puissant
- Oui et non. Le hardware crée un effet de verrouillage. Je suis satisfait des 128 GB de mémoire unifiée, mais je suis un peu inquiet de voir que c’est devenu plus cher qu’au moment où je l’ai acheté
  Si on combine les récentes initiatives de la Maison-Blanche concernant Anthropic et le fait que la prochaine génération de bons modèles pourrait avoir besoin de plus de 128 GB pour bien tourner, ce n’est pas très encourageant pour l’avenir
  Je ne rabaisse pas le local. J’en fais partie moi-même et j’utilise aussi des abonnements, mais il faut regarder les compromis avec lucidité
- Avec $3k, on n’obtient pas des performances de niveau modèle de pointe. Si on répartit cela sur l’achat d’un PC complet, et pas seulement du GPU, on atteint à peine des performances utilisables
- Il faut penser à $10k, pas à 3 000 dollars
- Je pense à peu près pareil. J’utilise une carte 16GB VRAM bon marché achetée il y a environ un an, et je comprends qu’on puisse payer pour obtenir bien plus de tokens par seconde que ce qu’on peut faire à la maison
  Mais ça donne l’impression de mesurer la productivité au nombre de lignes de code. Dans mon travail, je n’ai l’impression de tirer aucun bénéfice d’aucun abonnement
  Bien sûr, je ne peux pas recréer toute une app CRUD ennuyeuse avec un seul prompt, mais tant pis
J’ai commencé à utiliser une approche brain -> worker pour coder
Le Brain, c’est le modèle cher et intelligent de mon abonnement Claude. Quand c’est possible, j’utilise Fable 5, sinon en ce moment Opus
Le Worker est un modèle local (qwen3.6:46B), déployé sur un GPU de 36 GB avec Opencode + Ollama
Le Brain s’occupe de l’analyse/de la conception et de la génération des tâches. Les tâches doivent être simples et claires pour que le worker puisse les traiter. Le Worker code, puis le Brain vérifie et, si nécessaire, crée des tâches de correction. En ce moment, le ratio corrections/tâches est d’environ 1:20
Si vous n’avez pas de GPU à la maison, qwen3.6 est aussi assez bon marché dans le cloud
C’est plutôt une configuration expérimentale montée par curiosité, mais ça marche mieux que prévu. Elle me permet en ce moment de faire tourner en continu trois agents de codage depuis 4 jours. J’ai expliqué ici comment j’en suis arrivé à cette configuration : https://news.ycombinator.com/item?id=48520757
Peut-on désormais faire tourner l’équivalent d’Opus 4.6 en local ? J’entends des réponses contradictoires en permanence
Si c’était possible pour $10k, j’arrêterais mon abonnement. Le problème, c’est que je n’ai pas envie de dépenser cet argent juste pour vérifier moi-même
- Si vous voulez du niveau modèle de pointe, l’option économiquement rationnelle reste OpenRouter ou un abonnement direct au modèle de pointe que vous préférez
  En pratique, pour protéger les marges des datacenters, personne ne propose aux consommateurs une configuration unique capable de faire tourner autant de VRAM. Apple l’a déjà permis par le passé, mais a arrêté, et ces machines se négocient aujourd’hui à plus de $20k pièce sur eBay
  Il est possible de faire tourner des modèles très puissants avec des cartes des séries 3090/4090/5090/6000. Mais si vous voulez du “niveau modèle de pointe”, il faut compter au minimum environ $22k en neuf. En occasion, on peut réduire fortement le coût initial et monter son propre serveur, mais la consommation électrique risque d’être 4 à 6 fois plus élevée, voire davantage
- Avec $10k, on n’approche ni Opus ni Sonnet
  À l’heure actuelle, ce n’est tout simplement pas faisable pour un particulier
- Malheureusement, on ne peut pas encore faire tourner en local l’équivalent d’Opus 4.6. Le plus proche qu’on puisse obtenir aujourd’hui, c’est à peu près le niveau de Sonnet 3.7
- J’ai dépensé $8k, et j’ai obtenu quelque chose de proche de Sonnet, mais 2 à 3 fois plus lent. C’est une configuration avec deep seek v4 flash tournant sur deux Spark
- Dans certains benchmarks, Kimi K2.6 tombe dans la marge d’erreur d’Opus 4.6, et peut tourner sur 8 RTX6000
  À l’heure actuelle, impossible de monter une telle machine à partir de zéro pour moins de $100K. Mais on en est aussi à un moment où il est difficile de mettre un prix sur l’autonomie