Quelques mots sur DS4
(antirez.com)- DwarfStar 4 s’est diffusé plus vite que prévu et a révélé une demande pour une expérience d’IA locale centrée sur un modèle unique
- Cette diffusion rapide a été favorisée par DeepSeek v4 Flash et par une quantification asymétrique 2/8 bits, rendant possible une exécution avec 96 Go ou 128 Go de RAM
- DS4 n’est pas un projet lié à un modèle particulier, mais vise à placer au centre des modèles open weights récents et rapides sur des machines de type GPU in a box
- En inférence locale, il semble pertinent d’appeler des modèles spécialisés comme ds4-coding, ds4-legal ou ds4-medical selon la question
- Les prochains axes portent sur les benchmarks de qualité, les agents de code, la CI sur matériel domestique, l’élargissement des portages et l’inférence distribuée en série et en parallèle
Diffusion rapide de DS4 et contexte
- DwarfStar 4 a gagné en popularité plus vite que prévu et a mis en évidence la demande pour une expérience d’IA locale axée sur l’intégration autour d’un modèle unique
- Cette adoption rapide a été portée à la fois par l’arrivée de modèles quasi-frontier comme DeepSeek v4 Flash, par des performances et une vitesse suffisantes pour bouleverser l’inférence locale, et par une combinaison de quantification asymétrique agressive en 2/8 bits
- Cette combinaison permet d’exécuter le modèle avec seulement 96 Go ou 128 Go de RAM
- L’expérience accumulée par le mouvement de l’IA locale au cours des dernières années a influencé la vitesse de développement de DS4, et sans l’aide de GPT 5.5, il aurait sans doute été difficile de le créer en une semaine
- La première semaine a été amusante mais épuisante, avec en moyenne 14 heures de travail par jour, à une intensité comparable aux premiers mois de Redis
Orientation future
- DS4 n’est pas un projet qui commence et se termine avec DeepSeek v4 Flash ; avec le temps, le modèle central peut changer
- L’objectif est de placer au centre de DS4 les modèles open weights les plus récents qui tournent réellement vite sur du matériel de type « GPU in a box », comme un Mac hautes performances ou un DGX Spark
- Le prochain candidat pourrait être DeepSeek v4 Flash lorsqu’il sera publié sous forme d’un nouveau checkpoint, et des variantes pour le code ou des modèles experts pour le droit ou la médecine sont également possibles
- En inférence locale, il semble pertinent d’appeler des modèles comme ds4-coding, ds4-legal, ds4-medical en fonction de la question
- On peut considérer que c’est la première fois qu’un travail sérieux, auparavant confié à Claude ou GPT, peut être délégué à un modèle local
- Le vector steering permet aussi d’utiliser les LLM de manière bien plus libre, et DS4 offre une expérience beaucoup plus proche des modèles frontier en ligne que des petits modèles locaux
- Après quelques premiers jours chaotiques, le projet compte se concentrer sur les benchmarks de qualité, les agents de code, les tests de CI sur matériel domestique, davantage de portages et l’inférence distribuée
- L’inférence distribuée inclut à la fois des approches sérielles (serial) et parallèles (parallel), et reste un chantier important pour la suite
- L’IA est trop importante pour rester un simple service fourni
1 commentaires
Réactions sur Hacker News
DwarfStar4 est un petit runtime d’inférence LLM capable d’exécuter DeepSeek 4 et, d’après l’article de blog, il semble nécessiter actuellement 96 Go de VRAM
C’est une précision pour ceux qui manquent de contexte :-)
Ça pourrait fonctionner, mais être un peu plus lent en allant chercher les couches du modèle depuis le stockage
Je suis très curieux de savoir à quel moment l’intelligence requise pour coder atteindra le seuil du « suffisant »
À partir d’un certain point, on peut laisser un modèle moins intelligent s’acharner plus longtemps sur un problème et arriver au même résultat ; si je n’interviens pas, le résultat revient au même
DeepSeek V4 Pro donne presque l’impression d’être déjà à ce niveau, et Flash y est peut-être aussi
Si ce seuil est atteint, je me demande quelle part du modèle économique actuel d’Anthropic s’effondrera
Jusqu’ici, il était évidemment rentable de payer pour le modèle le plus intelligent, mais il semble désormais clair que la marge de croissance de cette idée est limitée
La vraie question est de savoir combien de piste il reste, et je me demande si l’expansion rapide d’Anthropic vers l’entreprise et la productivité vient du fait qu’ils voient déjà cette tendance
Ça ne semble pas être seulement une question d’attendre plus longtemps
C’est un équilibre entre le temps développeur, le coût développeur, le coût IA et la productivité développeur
Quand on voit 4.6, on a l’impression d’être proche de la limite de coût acceptable pour une entreprise classique, donc il faudra sans doute que d’autres variables changent
Les résultats étaient corrects, mais les scores restaient nettement en dessous d’Opus, et même avec le tarif promotionnel actuel de Deepseek, le coût était presque équivalent
Cette structure de coûts est intéressante ; j’ai observé quelque chose de similaire avec Sonnet et Opus, et lors de mes propres benchmarks il y avait aussi des modèles qui semblaient bon marché à l’usage, mais consommaient tellement de tokens qu’ils revenaient au même prix que des modèles « plus chers »
[1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
Pourquoi feraient-elles attendre leurs programmeurs ?
Je suis content de voir apparaître un outil aussi ciblé
Le backend principal visé est Metal, en commençant par les MacBook avec 96 Go de RAM
Pour NVIDIA CUDA, une attention particulière est portée au DGX Spark, et AMD ROCm n’est pris en charge que sur la branche
rocmantirez n’ayant pas d’accès direct au matériel, cette partie reste séparée de main, avec une structure où la communauté rebase quand c’est nécessaire
Ce projet n’aurait pas existé sans llama.cpp et GGML, et il est même recommandé de lire la section des remerciements
En revanche, il semble qu’il ne prenne pas encore en charge l’offloading vers la RAM système[0]
Donc je vais aussi continuer à surveiller les issues de llama.cpp[1]
[0] https://github.com/antirez/ds4/issues/108
[1] https://github.com/ggml-org/llama.cpp/issues/22319
rocm, je me demande si quelqu’un l’a réellement testéOn parle beaucoup de MacBook Pro dans ce fil, mais j’aimerais essayer ça sur un AMD Halo Strix avec 128 Go de mémoire unifiée
J’ai essayé la version Q4 sur un Mac Studio via le réseau local, et c’était bien
Utilisé avec plusieurs agents, j’ai même eu pour la première fois l’impression d’oublier qu’il s’agissait d’un modèle local tant il faisait bien le travail
En revanche, je ne suis pas sûr qu’un autre agent soit vraiment nécessaire
Je l’ai fait tourner avec Pi, mais le prompt système de Claude Code est trop lourd si on tient compte de la vitesse de préremplissage, même si le résultat était excellent
OpenCode est aussi une bonne option
Je me demande si créer encore un autre outil similaire, mais dédié à Deepseek 4, apporterait vraiment quelque chose
Mais si on suit l’idée même de DS4, les agents API se retrouvent à faire des choses bizarres comme traduire la syntaxe DSML en JSON, ce qui entraîne ensuite des problèmes de normalisation ou de checkpointing du cache KV
Que ce soit réellement le cas ou non, proposer une alternative plus saine a aussi du sens
Je ne comprends pas non plus pourquoi on ne cherche pas davantage à écrire ce type de choses en C/Go/Rust pour gagner en contrôle, en vitesse et en réduction des dépendances
Il y a aussi énormément à imaginer côté TUI
La plupart des projets ont tendance à simplement recopier ce qui existe déjà ; par exemple, j’ai bricolé ça en 20 minutes : https://x.com/antirez/status/2055190821373116619
Maintenant que le code est devenu bon marché, la valeur des idées a augmenté
Je ne suis pas sûr qu’il soit encore pertinent aujourd’hui de raisonner en mode « a-t-on vraiment besoin d’un énième XYZ ? »
Rien que pour explorer de nouvelles idées, ça peut déjà valoir le coup
Personnellement, je n’aime pas utiliser l’écosystème JavaScript / Node pour le code, donc quand j’explore un nouveau TUI ou un nouveau workflow d’agent avec des outils qui me conviennent mieux, le résultat et l’itération s’en ressentent
Il fournit un serveur d’API d’inférence, auquel on branche ensuite le harness de code
Pour l’instant je ne peux pas l’utiliser faute de matériel, mais j’aime bien l’idée. Je n’ai « que » 96 Go sur un M2 Max
Je comprends aussi que, pour les utilisateurs classiques ou le grand public, ça puisse sembler inutilisable ou pire
Ça me rappelle l’époque où les ordinateurs domestiques étaient considérés comme des jouets avant de devenir des ordinateurs personnels
Sur mon matériel actuel, la combinaison la plus exploitable reste pi agent + llama.cpp + nemotron cascade-2
Ça monte jusqu’à 1M de contexte, et comme l’architecture est hybride, ça ne s’effondre pas en 1/N² aux profondeurs de contexte de 10K, 50K ou 100K qu’utilisent les agents de code
Il y a quelques jours, dans l’avion et sans Internet, j’ai pu faire tourner pi agent avec un service llama.cpp, et c’était juste assez utilisable à environ 40~30 tokens/s, ce qui m’a fait sourire
De ce que je sais, la vitesse via API est généralement environ deux fois supérieure, autour de 60~80 tokens/s
Pendant l’inférence, les capteurs indiquaient 60 W de consommation, et la batterie aurait probablement du mal à tenir plus de 3 heures
Le modèle ne fait que 30B, donc il reste beaucoup de marge pour le cache KV et les autres programmes, et il tient bien même en quantification 8 bits assez généreuse
Avec seulement 3B de paramètres activés à la fois, le MoE A3B semble être le maximum qu’un M2 Max vieillissant puisse encore encaisser
DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.gguf, ça tient dans 96 Go de VRAM contexte comprisDonc, à moins que macOS n’utilise par défaut quelques Go de RAM/VRAM pour l’OS ou l’affichage, ça devrait être théoriquement possible
Il y a déjà quelques retours positifs
En revanche, le M2 Max reste un peu lent
Je suis surpris de voir à quel point ça se rapproche de Claude
C’est évidemment beaucoup plus lent, mais je ne suis pas certain que ce soit beaucoup plus bête
Fait intéressant, la quantification imatrix semble meilleure que celles utilisées par le backend d’inférence zdr sur OpenRouter
Hier, il a compris de lui-même que son propre processus serveur était lui-même, sans que j’aie à le lui dire ; c’est la première fois que je vois ça avec un modèle local
C’est bien plus lent, mais avec la promo actuelle c’est aussi nettement moins cher
J’ai l’impression qu’on n’explique pas vraiment pourquoi recréer un moteur d’inférence spécifique à chaque modèle
On pourrait simplement utiliser llama.cpp, d’autant que beaucoup de gens travaillent déjà à son intégration dans llama.cpp
Ça représente beaucoup d’efforts sur un seul modèle, qui risque de devenir vite obsolète si un meilleur modèle arrive
Dans certaines discussions, des gens soumettent des PR à la fois sur la branche llama.cpp et sur ds4, ce qui disperse une main-d’œuvre rare qui consacre du temps de développement à ce modèle
Et ce n’est pas grave : des gens porteront ce travail vers llama.cpp et tout le monde en profitera
L’expérience utilisateur de ds4 est aussi excellente. Il est très facile d’obtenir un modèle validé et une bonne quantification
llama.cpp a tellement de boutons de réglage qu’on a beaucoup plus l’impression de hacker dans un terrain vague
On verra dans quelques années si c’était vrai
Si quelqu’un veut intégrer ce support en upstream dans ce projet, libre à lui de le faire ; le code est sous licence MIT
Des projets plus récents et plus petits peuvent aller plus vite
DeepSeekV4 Pro est vraiment un modèle très compétent, et particulièrement intéressant vu son prix
Je bricole un moteur 2.5D en C sur raylib et j’utilise DeepSeek comme assistant
Dans OpenaCode, on voit de manière transparente la trace de son raisonnement, et c’est étonnant à observer
C’est très long à lire, mais il n’y avait rien d’inutile ni de vide de sens
DeepSeek met toujours en évidence, dans son raisonnement, des hypothèses auxquelles je n’avais pas pensé ou que j’avais formulées à tort, puis dans sa sortie finale il s’aligne quand même sur ma demande imparfaite
Du coup je lui réponds souvent quelque chose comme : « Attends, toi aussi tu pensais ça ; c’est bien ça, et c’est moi qui me suis trompé, donc prenons aussi cet aspect en compte »
J’aimerais pouvoir faire tourner ce genre de chose non seulement sur mon ordinateur, mais aussi sur des projets clients ou sur un GPU cloud
L’idée clé — utiliser efficacement un modèle puissant sans cluster — reste pertinente pour beaucoup de cas d’usage business
J’espère que cette approche fonctionne aussi en mode batch
En ce moment, sur H200, pour l’appel d’outils agentique d’agents vocaux intelligents, Qwen 3.6 27B en 4 bits avec MTP me semble être l’une des meilleures options
Si DS4 Flash est un 80B en 2 bits, avec 13B actifs et une architecture MTP, je me demande si ça pourrait être à la fois plus rapide, plus intelligent et autoriser davantage de séquences concurrentes
Cette quantification 2 bits particulière semble avoir une vraie importance
Quand je vois les performances et la vitesse grimper aussi vite sur les modèles locaux, qu’on appelle ça « intelligence » ou autrement, je me demande où se situent le taux de progression et le plafond de ce domaine
Dans quelques années, est-ce qu’on pourrait avoir ce niveau d’intelligence et de performances sur 16 Go de RAM, par exemple ?
Est-ce qu’on peut définir ici une nouvelle forme de loi de Moore ?
Il faudrait une innovation architecturale, matérielle ou une percée dans les techniques de quantification
Le problème, c’est que même les paramètres non activés doivent quand même résider en mémoire
Même avec les modèles mixture-of-experts, échanger les paramètres vers et depuis la RAM est beaucoup trop lent
Les corbeaux montrent déjà une certaine forme d’intelligence avec un cerveau bien plus petit que celui des humains, et il existe un recouvrement entre les capacités de résolution de problèmes de l’humain le moins intelligent et du corbeau le plus intelligent
La question est donc : qu’est-ce que c’est exactement ?
Yann LeCun semble penser qu’il s’agit de ce qu’on appelle aujourd’hui un modèle du monde
Un modèle du monde ne prédit pas des données structurées comme le langage, mais des actions
Si l’on peut prédire comment un monde fonctionne, on peut en théorie raisonner sur la cause et l’effet
Et si l’on combine ce raisonnement causal avec le langage, on pourrait peut-être obtenir quelque chose de proche d’une véritable intelligence
C’est visiblement dans cette direction que ça va
Quand des prototypes de tels systèmes apparaîtront, beaucoup de questions se poseront sur la quantité réelle de données nécessaire
On a déjà vu qu’en réduisant les LLM à une quantification 1 bit, on obtient encore des modèles assez solides en compréhension du langage
Je ne trouve pas déraisonnable de penser que, dans les prochaines années, on verra des systèmes d’IA très intelligents avec une mémoire relativement faible