1 points par GN⁺ 5 시간 전 | 1 commentaires | Partager sur WhatsApp
  • DwarfStar 4 s’est diffusé plus vite que prévu et a révélé une demande pour une expérience d’IA locale centrée sur un modèle unique
  • Cette diffusion rapide a été favorisée par DeepSeek v4 Flash et par une quantification asymétrique 2/8 bits, rendant possible une exécution avec 96 Go ou 128 Go de RAM
  • DS4 n’est pas un projet lié à un modèle particulier, mais vise à placer au centre des modèles open weights récents et rapides sur des machines de type GPU in a box
  • En inférence locale, il semble pertinent d’appeler des modèles spécialisés comme ds4-coding, ds4-legal ou ds4-medical selon la question
  • Les prochains axes portent sur les benchmarks de qualité, les agents de code, la CI sur matériel domestique, l’élargissement des portages et l’inférence distribuée en série et en parallèle

Diffusion rapide de DS4 et contexte

  • DwarfStar 4 a gagné en popularité plus vite que prévu et a mis en évidence la demande pour une expérience d’IA locale axée sur l’intégration autour d’un modèle unique
  • Cette adoption rapide a été portée à la fois par l’arrivée de modèles quasi-frontier comme DeepSeek v4 Flash, par des performances et une vitesse suffisantes pour bouleverser l’inférence locale, et par une combinaison de quantification asymétrique agressive en 2/8 bits
  • Cette combinaison permet d’exécuter le modèle avec seulement 96 Go ou 128 Go de RAM
  • L’expérience accumulée par le mouvement de l’IA locale au cours des dernières années a influencé la vitesse de développement de DS4, et sans l’aide de GPT 5.5, il aurait sans doute été difficile de le créer en une semaine
  • La première semaine a été amusante mais épuisante, avec en moyenne 14 heures de travail par jour, à une intensité comparable aux premiers mois de Redis

Orientation future

  • DS4 n’est pas un projet qui commence et se termine avec DeepSeek v4 Flash ; avec le temps, le modèle central peut changer
  • L’objectif est de placer au centre de DS4 les modèles open weights les plus récents qui tournent réellement vite sur du matériel de type « GPU in a box », comme un Mac hautes performances ou un DGX Spark
  • Le prochain candidat pourrait être DeepSeek v4 Flash lorsqu’il sera publié sous forme d’un nouveau checkpoint, et des variantes pour le code ou des modèles experts pour le droit ou la médecine sont également possibles
  • En inférence locale, il semble pertinent d’appeler des modèles comme ds4-coding, ds4-legal, ds4-medical en fonction de la question
  • On peut considérer que c’est la première fois qu’un travail sérieux, auparavant confié à Claude ou GPT, peut être délégué à un modèle local
  • Le vector steering permet aussi d’utiliser les LLM de manière bien plus libre, et DS4 offre une expérience beaucoup plus proche des modèles frontier en ligne que des petits modèles locaux
  • Après quelques premiers jours chaotiques, le projet compte se concentrer sur les benchmarks de qualité, les agents de code, les tests de CI sur matériel domestique, davantage de portages et l’inférence distribuée
  • L’inférence distribuée inclut à la fois des approches sérielles (serial) et parallèles (parallel), et reste un chantier important pour la suite
  • L’IA est trop importante pour rester un simple service fourni

1 commentaires

 
GN⁺ 5 시간 전
Réactions sur Hacker News
  • DwarfStar4 est un petit runtime d’inférence LLM capable d’exécuter DeepSeek 4 et, d’après l’article de blog, il semble nécessiter actuellement 96 Go de VRAM
    C’est une précision pour ceux qui manquent de contexte :-)

    • Ce n’est pas le modèle complet mais la version Flash, et la quantification est aussi autour de Q2~Q3 ; c’est impressionnant, mais assez différent du modèle complet
    • Il est indiqué qu’il faut 96 Go de VRAM, et je me demande si quelqu’un a testé ce qui se passe sur un Mac avec moins de RAM
      Ça pourrait fonctionner, mais être un peu plus lent en allant chercher les couches du modèle depuis le stockage
    • Je me demande en quoi DwarfStar4 diffère de llama.cpp
  • Je suis très curieux de savoir à quel moment l’intelligence requise pour coder atteindra le seuil du « suffisant »
    À partir d’un certain point, on peut laisser un modèle moins intelligent s’acharner plus longtemps sur un problème et arriver au même résultat ; si je n’interviens pas, le résultat revient au même
    DeepSeek V4 Pro donne presque l’impression d’être déjà à ce niveau, et Flash y est peut-être aussi
    Si ce seuil est atteint, je me demande quelle part du modèle économique actuel d’Anthropic s’effondrera
    Jusqu’ici, il était évidemment rentable de payer pour le modèle le plus intelligent, mais il semble désormais clair que la marge de croissance de cette idée est limitée
    La vraie question est de savoir combien de piste il reste, et je me demande si l’expansion rapide d’Anthropic vers l’entreprise et la productivité vient du fait qu’ils voient déjà cette tendance

    • Les modèles plus intelligents font parfois simplement des choses que les petits modèles ne savent pas faire
      Ça ne semble pas être seulement une question d’attendre plus longtemps
    • Au final, tout reviendra toujours à une question de coût
      C’est un équilibre entre le temps développeur, le coût développeur, le coût IA et la productivité développeur
      Quand on voit 4.6, on a l’impression d’être proche de la limite de coût acceptable pour une entreprise classique, donc il faudra sans doute que d’autres variables changent
    • L’agent de code open source Kilo a comparé Deepseek v4 Pro et Flash à Opus 4.7 et Kimi K2[1]
      Les résultats étaient corrects, mais les scores restaient nettement en dessous d’Opus, et même avec le tarif promotionnel actuel de Deepseek, le coût était presque équivalent
      Cette structure de coûts est intéressante ; j’ai observé quelque chose de similaire avec Sonnet et Opus, et lors de mes propres benchmarks il y avait aussi des modèles qui semblaient bon marché à l’usage, mais consommaient tellement de tokens qu’ils revenaient au même prix que des modèles « plus chers »
      [1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
    • Pour les programmeurs amateurs, on atteindra assez vite un niveau suffisamment bon, mais les entreprises continueront probablement à payer pour des modèles plus rapides et plus intelligents
      Pourquoi feraient-elles attendre leurs programmeurs ?
  • Je suis content de voir apparaître un outil aussi ciblé
    Le backend principal visé est Metal, en commençant par les MacBook avec 96 Go de RAM
    Pour NVIDIA CUDA, une attention particulière est portée au DGX Spark, et AMD ROCm n’est pris en charge que sur la branche rocm
    antirez n’ayant pas d’accès direct au matériel, cette partie reste séparée de main, avec une structure où la communauté rebase quand c’est nécessaire
    Ce projet n’aurait pas existé sans llama.cpp et GGML, et il est même recommandé de lire la section des remerciements
    En revanche, il semble qu’il ne prenne pas encore en charge l’offloading vers la RAM système[0]
    Donc je vais aussi continuer à surveiller les issues de llama.cpp[1]
    [0] https://github.com/antirez/ds4/issues/108
    [1] https://github.com/ggml-org/llama.cpp/issues/22319

    • AMD ROCm n’étant pris en charge que sur la branche rocm, je me demande si quelqu’un l’a réellement testé
      On parle beaucoup de MacBook Pro dans ce fil, mais j’aimerais essayer ça sur un AMD Halo Strix avec 128 Go de mémoire unifiée
    • Encore faudrait-il pouvoir acheter un Mac avec autant de RAM
  • J’ai essayé la version Q4 sur un Mac Studio via le réseau local, et c’était bien
    Utilisé avec plusieurs agents, j’ai même eu pour la première fois l’impression d’oublier qu’il s’agissait d’un modèle local tant il faisait bien le travail
    En revanche, je ne suis pas sûr qu’un autre agent soit vraiment nécessaire
    Je l’ai fait tourner avec Pi, mais le prompt système de Claude Code est trop lourd si on tient compte de la vitesse de préremplissage, même si le résultat était excellent
    OpenCode est aussi une bonne option
    Je me demande si créer encore un autre outil similaire, mais dédié à Deepseek 4, apporterait vraiment quelque chose

    • Fonctionnellement, il n’y a pas besoin d’un autre agent
      Mais si on suit l’idée même de DS4, les agents API se retrouvent à faire des choses bizarres comme traduire la syntaxe DSML en JSON, ce qui entraîne ensuite des problèmes de normalisation ou de checkpointing du cache KV
      Que ce soit réellement le cas ou non, proposer une alternative plus saine a aussi du sens
      Je ne comprends pas non plus pourquoi on ne cherche pas davantage à écrire ce type de choses en C/Go/Rust pour gagner en contrôle, en vitesse et en réduction des dépendances
      Il y a aussi énormément à imaginer côté TUI
      La plupart des projets ont tendance à simplement recopier ce qui existe déjà ; par exemple, j’ai bricolé ça en 20 minutes : https://x.com/antirez/status/2055190821373116619
      Maintenant que le code est devenu bon marché, la valeur des idées a augmenté
      Je ne suis pas sûr qu’il soit encore pertinent aujourd’hui de raisonner en mode « a-t-on vraiment besoin d’un énième XYZ ? »
      Rien que pour explorer de nouvelles idées, ça peut déjà valoir le coup
      Personnellement, je n’aime pas utiliser l’écosystème JavaScript / Node pour le code, donc quand j’explore un nouveau TUI ou un nouveau workflow d’agent avec des outils qui me conviennent mieux, le résultat et l’itération s’en ressentent
    • DS4 est un moteur d’inférence, pas un harness d’exécution
      Il fournit un serveur d’API d’inférence, auquel on branche ensuite le harness de code
  • Pour l’instant je ne peux pas l’utiliser faute de matériel, mais j’aime bien l’idée. Je n’ai « que » 96 Go sur un M2 Max
    Je comprends aussi que, pour les utilisateurs classiques ou le grand public, ça puisse sembler inutilisable ou pire
    Ça me rappelle l’époque où les ordinateurs domestiques étaient considérés comme des jouets avant de devenir des ordinateurs personnels
    Sur mon matériel actuel, la combinaison la plus exploitable reste pi agent + llama.cpp + nemotron cascade-2
    Ça monte jusqu’à 1M de contexte, et comme l’architecture est hybride, ça ne s’effondre pas en 1/N² aux profondeurs de contexte de 10K, 50K ou 100K qu’utilisent les agents de code
    Il y a quelques jours, dans l’avion et sans Internet, j’ai pu faire tourner pi agent avec un service llama.cpp, et c’était juste assez utilisable à environ 40~30 tokens/s, ce qui m’a fait sourire
    De ce que je sais, la vitesse via API est généralement environ deux fois supérieure, autour de 60~80 tokens/s
    Pendant l’inférence, les capteurs indiquaient 60 W de consommation, et la batterie aurait probablement du mal à tenir plus de 3 heures
    Le modèle ne fait que 30B, donc il reste beaucoup de marge pour le cache KV et les autres programmes, et il tient bien même en quantification 8 bits assez généreuse
    Avec seulement 3B de paramètres activés à la fois, le MoE A3B semble être le maximum qu’un M2 Max vieillissant puisse encore encaisser

    • Je ne sais pas si ça se comporte différemment sous macOS, mais avec CUDA et DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.gguf, ça tient dans 96 Go de VRAM contexte compris
      Donc, à moins que macOS n’utilise par défaut quelques Go de RAM/VRAM pour l’OS ou l’affichage, ça devrait être théoriquement possible
    • Ça devrait fonctionner aussi sur cette machine
      Il y a déjà quelques retours positifs
    • Avec 96 Go, ça devrait marcher, surtout avec un contexte limité
      En revanche, le M2 Max reste un peu lent
  • Je suis surpris de voir à quel point ça se rapproche de Claude
    C’est évidemment beaucoup plus lent, mais je ne suis pas certain que ce soit beaucoup plus bête
    Fait intéressant, la quantification imatrix semble meilleure que celles utilisées par le backend d’inférence zdr sur OpenRouter
    Hier, il a compris de lui-même que son propre processus serveur était lui-même, sans que j’aie à le lui dire ; c’est la première fois que je vois ça avec un modèle local

    • Je suis curieux de savoir quel prompt tu lui as donné
    • C’est clairement anecdotique, mais pour le code, DeepseekV4 Pro était meilleur que Sonnet
      C’est bien plus lent, mais avec la promo actuelle c’est aussi nettement moins cher
  • J’ai l’impression qu’on n’explique pas vraiment pourquoi recréer un moteur d’inférence spécifique à chaque modèle
    On pourrait simplement utiliser llama.cpp, d’autant que beaucoup de gens travaillent déjà à son intégration dans llama.cpp
    Ça représente beaucoup d’efforts sur un seul modèle, qui risque de devenir vite obsolète si un meilleur modèle arrive
    Dans certaines discussions, des gens soumettent des PR à la fois sur la branche llama.cpp et sur ds4, ce qui disperse une main-d’œuvre rare qui consacre du temps de développement à ce modèle

    • Il est beaucoup plus simple de travailler sur une codebase C ciblée qu’on maîtrise soi-même que sur une codebase C++ mûre et difficile à manier qu’on ne possède pas
      Et ce n’est pas grave : des gens porteront ce travail vers llama.cpp et tout le monde en profitera
      L’expérience utilisateur de ds4 est aussi excellente. Il est très facile d’obtenir un modèle validé et une bonne quantification
      llama.cpp a tellement de boutons de réglage qu’on a beaucoup plus l’impression de hacker dans un terrain vague
    • L’hypothèse semble être : « le code est bon marché, la collaboration — par exemple l’intégration upstream — est coûteuse »
      On verra dans quelques années si c’était vrai
    • Comme l’auteur l’a dit plusieurs fois, les mainteneurs de llama.cpp ne veulent pas d’un afflux massif de code généré par IA non relu par des humains
      Si quelqu’un veut intégrer ce support en upstream dans ce projet, libre à lui de le faire ; le code est sous licence MIT
    • À partir d’un certain point, le niveau d’abstraction et de généralisation requis par de grands projets flexibles comme llama.cpp ou Linux fait exploser le nombre de fichiers
      Des projets plus récents et plus petits peuvent aller plus vite
  • DeepSeekV4 Pro est vraiment un modèle très compétent, et particulièrement intéressant vu son prix
    Je bricole un moteur 2.5D en C sur raylib et j’utilise DeepSeek comme assistant
    Dans OpenaCode, on voit de manière transparente la trace de son raisonnement, et c’est étonnant à observer
    C’est très long à lire, mais il n’y avait rien d’inutile ni de vide de sens
    DeepSeek met toujours en évidence, dans son raisonnement, des hypothèses auxquelles je n’avais pas pensé ou que j’avais formulées à tort, puis dans sa sortie finale il s’aligne quand même sur ma demande imparfaite
    Du coup je lui réponds souvent quelque chose comme : « Attends, toi aussi tu pensais ça ; c’est bien ça, et c’est moi qui me suis trompé, donc prenons aussi cet aspect en compte »

  • J’aimerais pouvoir faire tourner ce genre de chose non seulement sur mon ordinateur, mais aussi sur des projets clients ou sur un GPU cloud
    L’idée clé — utiliser efficacement un modèle puissant sans cluster — reste pertinente pour beaucoup de cas d’usage business
    J’espère que cette approche fonctionne aussi en mode batch
    En ce moment, sur H200, pour l’appel d’outils agentique d’agents vocaux intelligents, Qwen 3.6 27B en 4 bits avec MTP me semble être l’une des meilleures options
    Si DS4 Flash est un 80B en 2 bits, avec 13B actifs et une architecture MTP, je me demande si ça pourrait être à la fois plus rapide, plus intelligent et autoriser davantage de séquences concurrentes
    Cette quantification 2 bits particulière semble avoir une vraie importance

  • Quand je vois les performances et la vitesse grimper aussi vite sur les modèles locaux, qu’on appelle ça « intelligence » ou autrement, je me demande où se situent le taux de progression et le plafond de ce domaine
    Dans quelques années, est-ce qu’on pourrait avoir ce niveau d’intelligence et de performances sur 16 Go de RAM, par exemple ?
    Est-ce qu’on peut définir ici une nouvelle forme de loi de Moore ?

    • Faire tenir ce genre de modèle dans 16 Go, y compris avec cette « odeur de grand modèle », n’est honnêtement pas possible aujourd’hui, ou du moins pas réaliste
      Il faudrait une innovation architecturale, matérielle ou une percée dans les techniques de quantification
      Le problème, c’est que même les paramètres non activés doivent quand même résider en mémoire
      Même avec les modèles mixture-of-experts, échanger les paramètres vers et depuis la RAM est beaucoup trop lent
    • Les gens à la pointe de ce domaine semblent penser qu’il faut des modèles parallèles résolvant des problèmes différents
      Les corbeaux montrent déjà une certaine forme d’intelligence avec un cerveau bien plus petit que celui des humains, et il existe un recouvrement entre les capacités de résolution de problèmes de l’humain le moins intelligent et du corbeau le plus intelligent
      La question est donc : qu’est-ce que c’est exactement ?
      Yann LeCun semble penser qu’il s’agit de ce qu’on appelle aujourd’hui un modèle du monde
      Un modèle du monde ne prédit pas des données structurées comme le langage, mais des actions
      Si l’on peut prédire comment un monde fonctionne, on peut en théorie raisonner sur la cause et l’effet
      Et si l’on combine ce raisonnement causal avec le langage, on pourrait peut-être obtenir quelque chose de proche d’une véritable intelligence
      C’est visiblement dans cette direction que ça va
      Quand des prototypes de tels systèmes apparaîtront, beaucoup de questions se poseront sur la quantité réelle de données nécessaire
      On a déjà vu qu’en réduisant les LLM à une quantification 1 bit, on obtient encore des modèles assez solides en compréhension du langage
      Je ne trouve pas déraisonnable de penser que, dans les prochaines années, on verra des systèmes d’IA très intelligents avec une mémoire relativement faible