Exécuter des modèles locaux, c’est désormais vraiment bien

(vickiboykis.com)

20 points par GN⁺ 2026-06-17 | 7 commentaires | Partager sur WhatsApp

Même sur un Mac M2 de 2022, les LLM locaux sont désormais assez performants pour être utilisés de façon pratique pour des questions de développement, des tâches de code et la vérification de documentation
Les premiers modèles locaux étaient lents, difficiles à utiliser et peu précis pour les tâches de programmation, mais depuis GPT-OSS, il est devenu moins fréquent de devoir revérifier avec des modèles API
Avec les dernières versions de la famille Gemma 4, les boucles de codage agentique en local fonctionnent à environ 75 % de la précision et de la vitesse des modèles de pointe
La combinaison de Pi et LM Studio permet d’exécuter des workflows agentiques via un endpoint d’inférence local, des artefacts de modèle et une configuration d’isolation Docker
Les modèles locaux gardent des limites en latence d’inférence, taille de fenêtre de contexte et contraintes matérielles, mais on peut observer et modifier directement le traitement des tokens, les prompts système, la quantification et le harness

Où en sont les modèles locaux aujourd’hui

Les premiers modèles locaux étaient lents, difficiles à utiliser et peu précis pour la plupart des tâches de programmation
L’idée que les modèles locaux étaient nettement en retard était globalement juste, du point de vue d’un usage individuel, jusqu’à la sortie de GPT-OSS
Le critère personnel d’un « modèle suffisamment bon » était de savoir s’il fallait revérifier avec un modèle API, et GPT-OSS a été le premier modèle à fortement réduire cette fréquence
Jusqu’à récemment, les modèles locaux servaient surtout de Google rapide et personnalisé pour des questions de développement ne nécessitant pas les toutes dernières informations
Depuis les dernières versions de la famille Gemma 4, les boucles de codage agentique en local atteignent environ 75 % de la précision et de la vitesse des modèles de pointe {p:75}

Modèles utilisés et environnement d’exécution

Plusieurs modèles locaux ont été exécutés sur un Mac M2 de 2022 avec 64 Go de RAM et 1 To de stockage
- Les modèles utilisés incluent Mistral 7B, Gemma 3, OpenAI OSS-20B, Qwen 3 MOE et Qwen 2.5 Coder
La configuration d’exécution est passée par raw llama.cpp, Open WebUI, llama-cpp-python, Ollama, llamafiles et LM Studio
Le modèle local par défaut utilisé était l’implémentation LM Studio de gemma-4-26b-a4b

Exemples concrets de travail agentique en local

Un script Python qui était auparavant dans un notebook a été refactorisé en un dépôt composé de 5 à 6 modules
Ces modules ont été lintés pour utiliser des annotations de type génériques conformes à PEP 585
La configuration locale a aussi servi à relire des billets de blog, écrire des tests unitaires et initialiser un dépôt pour un modèle two-tower de recommandation
Le dépôt de modèle two-tower généré par l’agent à partir de zéro restait basique, mais dépassait ce qui semblait possible l’an dernier
Tous les workflows agentiques ont été exécutés dans des conteneurs Docker dont les permissions d’exécution étaient limitées

Utilisation des ressources et derniers petits modèles

Les tâches réalisées relevaient moins de travaux révolutionnaires que d’un Google personnalisé ou d’une consultation de documentation
Pendant ces tâches, l’utilisation du GPU et de la RAM augmentait fortement, et le cache K-V montait jusqu’à 64 Go de RAM
Même pour des tâches simples, ce type de travail local avec des modèles était encore impossible il y a 6 mois
Gemma-4-12b-qat a impressionné par son rapport taille/performance dès sa sortie
L’architecture du modèle pousse à se demander quels compromis architecturaux sont nécessaires quand il existe des contraintes de performance et de coût

Configuration d’exécution d’un modèle agentique local

Pour exécuter un flux agentique local, il faut un moteur d’inférence de modèle local, un harness agentique et des artefacts de modèle locaux
Le harness doit être configuré pour pointer vers un endpoint d’inférence local, et les artefacts de modèle téléchargés doivent être servis via le moteur d’inférence
La configuration locale actuelle utilise Pi comme harness agentique et LM Studio comme serveur d’inférence
Elle suit l’article sur la configuration du codage agentique Gemma 4 avec Pi et LM Studio, avec quelques modifications
- Le modèle utilisé n’était pas le Gemma 26B A4B de l’article, mais le gemma-4-12b-qat, plus récent, plus petit et plus rapide, avec une perte de précision limitée
- Pour des raisons de sécurité, toutes les sessions Pi étaient exécutées dans des conteneurs Docker et n’avaient que des permissions bash, sans exécution de code Python ni navigation web
- Sur une image séparée dédiée aux tâches de recherche, l’autorisation de curl est envisagée
- Comme l’exécution se fait dans Docker, le models.json de Pi a été modifié pour permettre à Pi de communiquer avec le modèle

Méthode d’isolation basée sur Docker

Dans la configuration Pi, baseUrl était défini sur http://host.docker.internal:1234/v1 et l’API sur openai-completions
La configuration Docker Compose monte models.json, le répertoire de travail, la configuration Pi et le répertoire de session dans le conteneur
Le script de lancement relie le répertoire de travail courant à l’espace de travail du conteneur et peut ajouter, si nécessaire, un fichier Compose de sandbox plus sécurisé
Pi s’exécute dans le dépôt en cours de travail et, comme il lance Docker, il ne peut pas supprimer directement des fichiers ou répertoires du disque physique
La configuration personnalisée du modèle en json peut être injectée dans le conteneur, ce qui a assez bien fonctionné dans un environnement expérimental

Limites restantes

Les modèles locaux peuvent encore être lents à l’inférence, leur fenêtre de contexte reste petite, et le contexte utilisable dépend du matériel disponible
L’écosystème est devenu bien plus simple grâce à des outils comme LM Studio et le bouton Use This Model de Hugging Face
Les premières versions rencontrent des problèmes de mauvaise correspondance de templates de prompt, mais ce genre de problème est généralement corrigé très rapidement
Il reste difficile d’affirmer avec certitude que tout cela est prêt à être utilisé directement pour du développement logiciel en production

Avantages des modèles locaux et possibilités d’expérimentation

Avec les modèles locaux, on peut quasiment tout inspecter, y compris le processus d’inférence des tokens en temps réel
Il est possible de vérifier directement le flux des tokens en entrée et en sortie
On peut modifier la fenêtre de contexte locale et observer comment les performances s’améliorent ou se dégradent
On peut analyser la manière dont les tokens sont traités sur le GPU, et aussi modifier les prompts système et les réglages de quantification
Il est possible de faire s’affronter les modèles entre eux ou de modifier la configuration côté harness et d’en observer les effets, ce qui élargit encore les possibilités d’expérimentation

7 commentaires

syate 2026-06-18

« En raison de la taille naturelle des tâches et du fait que les petits modèles préfèrent des instructions précises, l’utilisateur finit par comprendre le code de manière bien plus détaillée.
Cela ne veut pas dire pour autant que les modèles locaux sont incapables de résumer la structure d’un projet ou de trouver des bugs ; cela signifie qu’ils récompensent surtout une manière de travailler beaucoup plus interventionniste. »

Il y a un passage marquant dans les commentaires.
Je suis d’accord avec ce point de vue.

emptybynature 2026-06-17

Si on veut dire qu’un modèle local est devenu vraiment utilisable, alors il faudrait appeler ChatGPT « superintelligent »... Les modèles locaux sont encore très, très loin de là. Selon mes critères, pour pouvoir dire qu’un modèle local est utilisable, il faut au moins faire tourner un modèle de plus de 100B avec 4 RTX 5090 ; ce n’est qu’« à peu près » utilisable à ce niveau.

GN⁺ 2026-06-17

Commentaires sur Lobste.rs

Je n’ai pas spécialement envie d’utiliser ce genre d’outils dans mon workflow actuel, mais mon principal reproche vient de la centralisation, et je pense que ses effets débordent aussi sur des domaines comme l’environnement, la vie privée et la répartition du pouvoir
Donc c’est une bonne nouvelle de voir que les modèles pouvant être hébergés en local deviennent réellement meilleurs
- À l’avenir, je pense qu’on ira probablement dans cette direction. Personne n’a envie d’envoyer toutes ses données à un prestataire de service, et les hausses de prix comme la disponibilité des modèles dépendent entièrement de leur bon vouloir
  Comme on l’a vu avec l’affaire Fable chez Anthropic, il y a un vrai risque à devenir soi-même un serf numérique
  Si les modèles locaux et les harnais de codage continuent de s’améliorer, il y aura de moins en moins de raisons de louer un modèle à un fournisseur, même si les performances globales du modèle local restent inférieures. Par exemple, beaucoup de gens utilisent DeepSeek au lieu de Claude parce que c’est largement assez utilisable tout en étant bien moins cher, et pour le local aussi, à partir d’un certain point, la question n’est plus de savoir si l’on peut louer un meilleur modèle, mais si le modèle local arrive à faire le travail
  Il y a aussi un fort potentiel de personnalisation et de réglage des outils. Je n’ai pas vu beaucoup d’exemples de LoRA pour une langue spécifique, mais sur des domaines restreints, on peut rendre un modèle bien plus efficace, au point qu’il puisse faire mieux qu’un énorme modèle généraliste
- Les modèles locaux sont intéressamment différents, et certaines de ces différences peuvent être des avantages. La puissance consommée pour l’inférence est à peu près celle d’un GPU gaming haut de gamme, et encore, seulement au moment de générer des tokens, avec en général une limite possible autour de 300 W. Si on écrit du code en le lisant au fur et à mesure, on ne consacre peut-être qu’environ 25 % d’une journée de travail à la génération de tokens, ce qui ramène la puissance soutenue à environ 75 W
  L’énergie nécessaire pour entraîner quelques modèles de taille locale par an peut être suffisamment faible pour se fondre dans le bruit de fond de la civilisation industrielle. Toutes les données restent en local, et il n’est pas nécessaire d’encourager autant les marchands
  Les modèles locaux sont plutôt plus bêtes, et cela peut paradoxalement vous garder plus près du travail. Avec Fable, si on lui dit « remplis cette rue de maisons », il peut sortir une masse de pseudo-villas de promoteur assez grossières, alors qu’avec Qwen3.6 27B, il est plus naturel de dire « peins ces quatre pièces ». À cause de la taille naturelle des blocs de travail et du fait que les petits modèles préfèrent des instructions concrètes, l’utilisateur finit par comprendre le code beaucoup plus en détail
  Cela ne veut pas dire que les modèles locaux sont incapables de résumer la structure d’un projet ou de repérer des bugs, mais qu’ils récompensent une manière de travailler beaucoup plus manuelle. Fable est le modèle qui nous a vraiment convaincus qu’on était fichus, et il peut effectivement recracher un projet entier d’un coup. Ces « pseudo-villas de promoteur » ont l’air correctes, mais le toit fuit, les fondations sont instables, et l’exécution est juste assez bonne pour se vendre. Bien sûr, ça a de fortes chances de cartonner sur le marché, et même Fable dans un mauvais jour reste meilleur que beaucoup de SaaS d’entreprise. Enfin, sans parler de conformité ni de sécurité
  Donc je trouve les modèles locaux intéressants comme outils, mais je n’attends vraiment pas avec enthousiasme le chaos que produiront les prochains modèles de frontière
Je suis curieux de savoir à quoi servent les modèles locaux pour les gens dans le milieu universitaire. qwen3-coder:30b était correct pour l’édition LaTeX et pour interroger des résultats issus d’articles passés à l’OCR, mais je me demande s’il y a d’autres usages
- Je suis dans le milieu universitaire. Je n’utilise pas le codage agentique, et je n’utilise pas du tout les LLM pour écrire. Je me demande même si la plupart des éditeurs ne l’interdisent pas
  Chaque fois que j’ai essayé, j’ai été très déçu, et la mise en place d’un pipeline d’inférence local est aussi pénible que fragile. Le GPU de mon portable est trop petit, donc je dois utiliser un cluster de calcul partagé
  J’utilise parfois ollama/qwen3-coder ou duck.ai. C’est surtout quand je n’arrive pas à trouver les mots-clés pour chercher comment faire quelque chose dans un langage ou une bibliothèque que je connais mal, ou pour obtenir de l’aide sur des tâches très spécifiques que je maîtrise peu, comme les regex ou le SQL
- Je m’en sers pour produire un premier jet de traduction. En relisant cette traduction, j’ai corrigé pas mal d’erreurs dans des supports de cours que j’aurais pu repérer même sans traduction, mais que je n’avais pas vues en pratique. C’est particulièrement pertinent quand on enseigne dans un environnement non monolingue
  Je m’en sers aussi pour produire d’un seul coup un premier jet de petits scripts personnels ou de mini-outils. Par exemple, un harnais qui exclut TikZ dans une demande de traduction. Il faut ensuite déboguer, mais déboguer est bien plus amusant que d’écrire soi-même les parties fastidieuses que le LLM devine à peu près correctement. La stratégie de validation est encore plus importante que pour quelque chose écrit à la main, et idéalement elle doit être de la forme « les bugs restants deviennent assez évidents à l’exécution de l’outil »
  Honnêtement, j’ai été surpris de voir que Qwen3.6 n’était pas si mauvais que ça pour produire un brouillon de solution type à des exercices standard de rédaction de preuves. En l’éditant pour l’adapter au style souhaité, on peut finir avec une impression de soupe à la hache / soupe aux cailloux, mais certaines formules peuvent très bien rester jusqu’au bout. Au final, cela dépend de l’ennui que représente la tâche
- En gros, je m’en sers pour de la relecture-correction allant au-delà de la simple vérification orthographique/grammaticale. Ou pour écrire rapidement des scripts d’analyse de données, mais à des fins exploratoires comme des pilotes, pas pour l’analyse finale.

kaboom45 2026-06-17

Je fais tourner qwen3.6 27b à 1 token par seconde sur un PC DDR3 + i5 avec carte graphique intégrée.
Autrefois, même en attendant de cette façon, on n’obtenait que des résultats médiocres, mais maintenant ça produit quand même quelque chose d’utilisable.
Il y a 6 mois, il fallait des modèles de 80 à 120B pour ce niveau de performance ; aujourd’hui, 30B suffisent, et je me dis que d’ici un an environ, on verra peut-être sur 30B des performances en code du niveau de opus4.8 ou gpt5.5.
À ce moment-là, même un modèle local comme celui-ci, qui crache 50 à 70 000 tokens par jour, pourra tout à fait devenir une option secondaire valable.

beoks 2026-06-17

Pour bien utiliser un modèle local, il faut un matériel à la hauteur, mais comme le hardware reste très cher, sauf raison particulière comme la sécurité, les abonnements ou les appels d’API semblent encore offrir un meilleur rapport coût-efficacité.

kaydash 2026-06-17

Pour les agents, ça passe encore tant bien que mal, mais pour des agents de code, c'est un peu...