Quelques mots sur DS4

(antirez.com)

1 points par GN⁺ 5 시간 전 | 1 commentaires | Partager sur WhatsApp

DwarfStar 4 s’est diffusé plus vite que prévu et a révélé une demande pour une expérience d’IA locale centrée sur un modèle unique
Cette diffusion rapide a été favorisée par DeepSeek v4 Flash et par une quantification asymétrique 2/8 bits, rendant possible une exécution avec 96 Go ou 128 Go de RAM
DS4 n’est pas un projet lié à un modèle particulier, mais vise à placer au centre des modèles open weights récents et rapides sur des machines de type GPU in a box
En inférence locale, il semble pertinent d’appeler des modèles spécialisés comme ds4-coding, ds4-legal ou ds4-medical selon la question
Les prochains axes portent sur les benchmarks de qualité, les agents de code, la CI sur matériel domestique, l’élargissement des portages et l’inférence distribuée en série et en parallèle

Diffusion rapide de DS4 et contexte

DwarfStar 4 a gagné en popularité plus vite que prévu et a mis en évidence la demande pour une expérience d’IA locale axée sur l’intégration autour d’un modèle unique
Cette adoption rapide a été portée à la fois par l’arrivée de modèles quasi-frontier comme DeepSeek v4 Flash, par des performances et une vitesse suffisantes pour bouleverser l’inférence locale, et par une combinaison de quantification asymétrique agressive en 2/8 bits
Cette combinaison permet d’exécuter le modèle avec seulement 96 Go ou 128 Go de RAM
L’expérience accumulée par le mouvement de l’IA locale au cours des dernières années a influencé la vitesse de développement de DS4, et sans l’aide de GPT 5.5, il aurait sans doute été difficile de le créer en une semaine
La première semaine a été amusante mais épuisante, avec en moyenne 14 heures de travail par jour, à une intensité comparable aux premiers mois de Redis

Orientation future

DS4 n’est pas un projet qui commence et se termine avec DeepSeek v4 Flash ; avec le temps, le modèle central peut changer
L’objectif est de placer au centre de DS4 les modèles open weights les plus récents qui tournent réellement vite sur du matériel de type « GPU in a box », comme un Mac hautes performances ou un DGX Spark
Le prochain candidat pourrait être DeepSeek v4 Flash lorsqu’il sera publié sous forme d’un nouveau checkpoint, et des variantes pour le code ou des modèles experts pour le droit ou la médecine sont également possibles
En inférence locale, il semble pertinent d’appeler des modèles comme ds4-coding, ds4-legal, ds4-medical en fonction de la question
On peut considérer que c’est la première fois qu’un travail sérieux, auparavant confié à Claude ou GPT, peut être délégué à un modèle local
Le vector steering permet aussi d’utiliser les LLM de manière bien plus libre, et DS4 offre une expérience beaucoup plus proche des modèles frontier en ligne que des petits modèles locaux
Après quelques premiers jours chaotiques, le projet compte se concentrer sur les benchmarks de qualité, les agents de code, les tests de CI sur matériel domestique, davantage de portages et l’inférence distribuée
L’inférence distribuée inclut à la fois des approches sérielles (serial) et parallèles (parallel), et reste un chantier important pour la suite
L’IA est trop importante pour rester un simple service fourni

1 commentaires

GN⁺ 5 시간 전

Réactions sur Hacker News

DwarfStar4 est un petit runtime d’inférence LLM capable d’exécuter DeepSeek 4 et, d’après l’article de blog, il semble nécessiter actuellement 96 Go de VRAM
C’est une précision pour ceux qui manquent de contexte :-)
- Ce n’est pas le modèle complet mais la version Flash, et la quantification est aussi autour de Q2~Q3 ; c’est impressionnant, mais assez différent du modèle complet
- Il est indiqué qu’il faut 96 Go de VRAM, et je me demande si quelqu’un a testé ce qui se passe sur un Mac avec moins de RAM
  Ça pourrait fonctionner, mais être un peu plus lent en allant chercher les couches du modèle depuis le stockage
- Je me demande en quoi DwarfStar4 diffère de llama.cpp
Je suis très curieux de savoir à quel moment l’intelligence requise pour coder atteindra le seuil du « suffisant »
À partir d’un certain point, on peut laisser un modèle moins intelligent s’acharner plus longtemps sur un problème et arriver au même résultat ; si je n’interviens pas, le résultat revient au même
DeepSeek V4 Pro donne presque l’impression d’être déjà à ce niveau, et Flash y est peut-être aussi
Si ce seuil est atteint, je me demande quelle part du modèle économique actuel d’Anthropic s’effondrera
Jusqu’ici, il était évidemment rentable de payer pour le modèle le plus intelligent, mais il semble désormais clair que la marge de croissance de cette idée est limitée
La vraie question est de savoir combien de piste il reste, et je me demande si l’expansion rapide d’Anthropic vers l’entreprise et la productivité vient du fait qu’ils voient déjà cette tendance
- Les modèles plus intelligents font parfois simplement des choses que les petits modèles ne savent pas faire
  Ça ne semble pas être seulement une question d’attendre plus longtemps
- Au final, tout reviendra toujours à une question de coût
  C’est un équilibre entre le temps développeur, le coût développeur, le coût IA et la productivité développeur
  Quand on voit 4.6, on a l’impression d’être proche de la limite de coût acceptable pour une entreprise classique, donc il faudra sans doute que d’autres variables changent
- L’agent de code open source Kilo a comparé Deepseek v4 Pro et Flash à Opus 4.7 et Kimi K2[1]
  Les résultats étaient corrects, mais les scores restaient nettement en dessous d’Opus, et même avec le tarif promotionnel actuel de Deepseek, le coût était presque équivalent
  Cette structure de coûts est intéressante ; j’ai observé quelque chose de similaire avec Sonnet et Opus, et lors de mes propres benchmarks il y avait aussi des modèles qui semblaient bon marché à l’usage, mais consommaient tellement de tokens qu’ils revenaient au même prix que des modèles « plus chers »
  [1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
- Pour les programmeurs amateurs, on atteindra assez vite un niveau suffisamment bon, mais les entreprises continueront probablement à payer pour des modèles plus rapides et plus intelligents
  Pourquoi feraient-elles attendre leurs programmeurs ?
Je suis content de voir apparaître un outil aussi ciblé
Le backend principal visé est Metal, en commençant par les MacBook avec 96 Go de RAM
Pour NVIDIA CUDA, une attention particulière est portée au DGX Spark, et AMD ROCm n’est pris en charge que sur la branche rocm
antirez n’ayant pas d’accès direct au matériel, cette partie reste séparée de main, avec une structure où la communauté rebase quand c’est nécessaire
Ce projet n’aurait pas existé sans llama.cpp et GGML, et il est même recommandé de lire la section des remerciements
En revanche, il semble qu’il ne prenne pas encore en charge l’offloading vers la RAM système[0]
Donc je vais aussi continuer à surveiller les issues de llama.cpp[1]
[0] https://github.com/antirez/ds4/issues/108
[1] https://github.com/ggml-org/llama.cpp/issues/22319
- AMD ROCm n’étant pris en charge que sur la branche rocm, je me demande si quelqu’un l’a réellement testé
  On parle beaucoup de MacBook Pro dans ce fil, mais j’aimerais essayer ça sur un AMD Halo Strix avec 128 Go de mémoire unifiée
- Encore faudrait-il pouvoir acheter un Mac avec autant de RAM
J’ai essayé la version Q4 sur un Mac Studio via le réseau local, et c’était bien
Utilisé avec plusieurs agents, j’ai même eu pour la première fois l’impression d’oublier qu’il s’agissait d’un modèle local tant il faisait bien le travail
En revanche, je ne suis pas sûr qu’un autre agent soit vraiment nécessaire
Je l’ai fait tourner avec Pi, mais le prompt système de Claude Code est trop lourd si on tient compte de la vitesse de préremplissage, même si le résultat était excellent
OpenCode est aussi une bonne option
Je me demande si créer encore un autre outil similaire, mais dédié à Deepseek 4, apporterait vraiment quelque chose
- Fonctionnellement, il n’y a pas besoin d’un autre agent
  Mais si on suit l’idée même de DS4, les agents API se retrouvent à faire des choses bizarres comme traduire la syntaxe DSML en JSON, ce qui entraîne ensuite des problèmes de normalisation ou de checkpointing du cache KV
  Que ce soit réellement le cas ou non, proposer une alternative plus saine a aussi du sens
  Je ne comprends pas non plus pourquoi on ne cherche pas davantage à écrire ce type de choses en C/Go/Rust pour gagner en contrôle, en vitesse et en réduction des dépendances
  Il y a aussi énormément à imaginer côté TUI
  La plupart des projets ont tendance à simplement recopier ce qui existe déjà ; par exemple, j’ai bricolé ça en 20 minutes : https://x.com/antirez/status/2055190821373116619
  Maintenant que le code est devenu bon marché, la valeur des idées a augmenté
  Je ne suis pas sûr qu’il soit encore pertinent aujourd’hui de raisonner en mode « a-t-on vraiment besoin d’un énième XYZ ? »
  Rien que pour explorer de nouvelles idées, ça peut déjà valoir le coup
  Personnellement, je n’aime pas utiliser l’écosystème JavaScript / Node pour le code, donc quand j’explore un nouveau TUI ou un nouveau workflow d’agent avec des outils qui me conviennent mieux, le résultat et l’itération s’en ressentent
- DS4 est un moteur d’inférence, pas un harness d’exécution
  Il fournit un serveur d’API d’inférence, auquel on branche ensuite le harness de code
Pour l’instant je ne peux pas l’utiliser faute de matériel, mais j’aime bien l’idée. Je n’ai « que » 96 Go sur un M2 Max
Je comprends aussi que, pour les utilisateurs classiques ou le grand public, ça puisse sembler inutilisable ou pire
Ça me rappelle l’époque où les ordinateurs domestiques étaient considérés comme des jouets avant de devenir des ordinateurs personnels
Sur mon matériel actuel, la combinaison la plus exploitable reste pi agent + llama.cpp + nemotron cascade-2
Ça monte jusqu’à 1M de contexte, et comme l’architecture est hybride, ça ne s’effondre pas en 1/N² aux profondeurs de contexte de 10K, 50K ou 100K qu’utilisent les agents de code
Il y a quelques jours, dans l’avion et sans Internet, j’ai pu faire tourner pi agent avec un service llama.cpp, et c’était juste assez utilisable à environ 40~30 tokens/s, ce qui m’a fait sourire
De ce que je sais, la vitesse via API est généralement environ deux fois supérieure, autour de 60~80 tokens/s
Pendant l’inférence, les capteurs indiquaient 60 W de consommation, et la batterie aurait probablement du mal à tenir plus de 3 heures
Le modèle ne fait que 30B, donc il reste beaucoup de marge pour le cache KV et les autres programmes, et il tient bien même en quantification 8 bits assez généreuse
Avec seulement 3B de paramètres activés à la fois, le MoE A3B semble être le maximum qu’un M2 Max vieillissant puisse encore encaisser
- Je ne sais pas si ça se comporte différemment sous macOS, mais avec CUDA et DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.gguf, ça tient dans 96 Go de VRAM contexte compris
  Donc, à moins que macOS n’utilise par défaut quelques Go de RAM/VRAM pour l’OS ou l’affichage, ça devrait être théoriquement possible
- Ça devrait fonctionner aussi sur cette machine
  Il y a déjà quelques retours positifs
- Avec 96 Go, ça devrait marcher, surtout avec un contexte limité
  En revanche, le M2 Max reste un peu lent
Je suis surpris de voir à quel point ça se rapproche de Claude
C’est évidemment beaucoup plus lent, mais je ne suis pas certain que ce soit beaucoup plus bête
Fait intéressant, la quantification imatrix semble meilleure que celles utilisées par le backend d’inférence zdr sur OpenRouter
Hier, il a compris de lui-même que son propre processus serveur était lui-même, sans que j’aie à le lui dire ; c’est la première fois que je vois ça avec un modèle local
- Je suis curieux de savoir quel prompt tu lui as donné
- C’est clairement anecdotique, mais pour le code, DeepseekV4 Pro était meilleur que Sonnet
  C’est bien plus lent, mais avec la promo actuelle c’est aussi nettement moins cher
J’ai l’impression qu’on n’explique pas vraiment pourquoi recréer un moteur d’inférence spécifique à chaque modèle
On pourrait simplement utiliser llama.cpp, d’autant que beaucoup de gens travaillent déjà à son intégration dans llama.cpp
Ça représente beaucoup d’efforts sur un seul modèle, qui risque de devenir vite obsolète si un meilleur modèle arrive
Dans certaines discussions, des gens soumettent des PR à la fois sur la branche llama.cpp et sur ds4, ce qui disperse une main-d’œuvre rare qui consacre du temps de développement à ce modèle
- Il est beaucoup plus simple de travailler sur une codebase C ciblée qu’on maîtrise soi-même que sur une codebase C++ mûre et difficile à manier qu’on ne possède pas
  Et ce n’est pas grave : des gens porteront ce travail vers llama.cpp et tout le monde en profitera
  L’expérience utilisateur de ds4 est aussi excellente. Il est très facile d’obtenir un modèle validé et une bonne quantification
  llama.cpp a tellement de boutons de réglage qu’on a beaucoup plus l’impression de hacker dans un terrain vague
- L’hypothèse semble être : « le code est bon marché, la collaboration — par exemple l’intégration upstream — est coûteuse »
  On verra dans quelques années si c’était vrai
- Comme l’auteur l’a dit plusieurs fois, les mainteneurs de llama.cpp ne veulent pas d’un afflux massif de code généré par IA non relu par des humains
  Si quelqu’un veut intégrer ce support en upstream dans ce projet, libre à lui de le faire ; le code est sous licence MIT
- À partir d’un certain point, le niveau d’abstraction et de généralisation requis par de grands projets flexibles comme llama.cpp ou Linux fait exploser le nombre de fichiers
  Des projets plus récents et plus petits peuvent aller plus vite
DeepSeekV4 Pro est vraiment un modèle très compétent, et particulièrement intéressant vu son prix
Je bricole un moteur 2.5D en C sur raylib et j’utilise DeepSeek comme assistant
Dans OpenaCode, on voit de manière transparente la trace de son raisonnement, et c’est étonnant à observer
C’est très long à lire, mais il n’y avait rien d’inutile ni de vide de sens
DeepSeek met toujours en évidence, dans son raisonnement, des hypothèses auxquelles je n’avais pas pensé ou que j’avais formulées à tort, puis dans sa sortie finale il s’aligne quand même sur ma demande imparfaite
Du coup je lui réponds souvent quelque chose comme : « Attends, toi aussi tu pensais ça ; c’est bien ça, et c’est moi qui me suis trompé, donc prenons aussi cet aspect en compte »
J’aimerais pouvoir faire tourner ce genre de chose non seulement sur mon ordinateur, mais aussi sur des projets clients ou sur un GPU cloud
L’idée clé — utiliser efficacement un modèle puissant sans cluster — reste pertinente pour beaucoup de cas d’usage business
J’espère que cette approche fonctionne aussi en mode batch
En ce moment, sur H200, pour l’appel d’outils agentique d’agents vocaux intelligents, Qwen 3.6 27B en 4 bits avec MTP me semble être l’une des meilleures options
Si DS4 Flash est un 80B en 2 bits, avec 13B actifs et une architecture MTP, je me demande si ça pourrait être à la fois plus rapide, plus intelligent et autoriser davantage de séquences concurrentes
Cette quantification 2 bits particulière semble avoir une vraie importance
Quand je vois les performances et la vitesse grimper aussi vite sur les modèles locaux, qu’on appelle ça « intelligence » ou autrement, je me demande où se situent le taux de progression et le plafond de ce domaine
Dans quelques années, est-ce qu’on pourrait avoir ce niveau d’intelligence et de performances sur 16 Go de RAM, par exemple ?
Est-ce qu’on peut définir ici une nouvelle forme de loi de Moore ?
- Faire tenir ce genre de modèle dans 16 Go, y compris avec cette « odeur de grand modèle », n’est honnêtement pas possible aujourd’hui, ou du moins pas réaliste
  Il faudrait une innovation architecturale, matérielle ou une percée dans les techniques de quantification
  Le problème, c’est que même les paramètres non activés doivent quand même résider en mémoire
  Même avec les modèles mixture-of-experts, échanger les paramètres vers et depuis la RAM est beaucoup trop lent
- Les gens à la pointe de ce domaine semblent penser qu’il faut des modèles parallèles résolvant des problèmes différents
  Les corbeaux montrent déjà une certaine forme d’intelligence avec un cerveau bien plus petit que celui des humains, et il existe un recouvrement entre les capacités de résolution de problèmes de l’humain le moins intelligent et du corbeau le plus intelligent
  La question est donc : qu’est-ce que c’est exactement ?
  Yann LeCun semble penser qu’il s’agit de ce qu’on appelle aujourd’hui un modèle du monde
  Un modèle du monde ne prédit pas des données structurées comme le langage, mais des actions
  Si l’on peut prédire comment un monde fonctionne, on peut en théorie raisonner sur la cause et l’effet
  Et si l’on combine ce raisonnement causal avec le langage, on pourrait peut-être obtenir quelque chose de proche d’une véritable intelligence
  C’est visiblement dans cette direction que ça va
  Quand des prototypes de tels systèmes apparaîtront, beaucoup de questions se poseront sur la quantité réelle de données nécessaire
  On a déjà vu qu’en réduisant les LLM à une quantification 1 bit, on obtient encore des modèles assez solides en compréhension du langage
  Je ne trouve pas déraisonnable de penser que, dans les prochaines années, on verra des systèmes d’IA très intelligents avec une mémoire relativement faible

Quelques mots sur DS4

Diffusion rapide de DS4 et contexte

Orientation future

À lire aussi

1 commentaires

Réactions sur Hacker News