DeepSeek v4 : un modèle de langage massif à haute efficacité prenant en charge un contexte de 1 million de tokens

(huggingface.co)

10 points par GN⁺ 5 일 전 | 1 commentaires | Partager sur WhatsApp

Modèle de langage massif basé sur une architecture Mixture-of-Experts (MoE) prenant en charge un contexte de 1M tokens, publié en deux versions : Pro (1.6T paramètres) et Flash (284B paramètres)
Architecture d’attention hybride combinant Compressed Sparse Attention (CSA) et Heavily Compressed Attention (HCA), utilisant à l’échelle de 1 million de tokens seulement 27 % des FLOPs d’inférence et 10 % du cache KV par rapport à DeepSeek-V3.2
Après un préentraînement sur plus de 32T tokens, application d’un pipeline de post-entraînement en 2 étapes consistant à entraîner séparément des experts par domaine, puis à les intégrer dans un modèle unique via on-policy distillation
DeepSeek-V4-Pro-Max atteint les meilleures performances open source sur des benchmarks de code comme LiveCodeBench 93.5, SWE Verified 80.6 et Codeforces 3206
Prend en charge trois modes de raisonnement : Non-Think, Think High et Think Max, permettant de choisir selon l’usage, des tâches quotidiennes au raisonnement le plus difficile

Présentation du modèle et architecture

La série DeepSeek-V4 se compose de deux modèles : DeepSeek-V4-Pro (1.6T paramètres au total, 49B activés) et DeepSeek-V4-Flash (284B paramètres au total, 13B activés)
Les deux modèles prennent en charge une longueur de contexte de 1 million de tokens
Trois principales évolutions architecturales et optimisations :
- Hybrid Attention Architecture : combine CSA et HCA pour améliorer fortement l’efficacité sur les longs contextes ; à 1 million de tokens, l’inférence d’un token unique descend à 27 % des FLOPs et 10 % du cache KV par rapport à DeepSeek-V3.2
- Manifold-Constrained Hyper-Connections (mHC) : renforce les connexions résiduelles classiques afin d’assurer à la fois la stabilité de propagation des signaux entre couches et la capacité de représentation du modèle
- Muon Optimizer : offre une convergence plus rapide et une meilleure stabilité d’entraînement

Entraînement et pipeline de post-entraînement

Préentraînement effectué sur plus de 32T tokens variés et de haute qualité
Le post-entraînement suit un paradigme en 2 étapes :
- Étape 1 : entraînement indépendant d’experts par domaine via SFT et RL (avec GRPO)
- Étape 2 : intégration des expertises de différents domaines dans un modèle unique via on-policy distillation

Modes de raisonnement

DeepSeek-V4-Pro et DeepSeek-V4-Flash prennent tous deux en charge trois modes de raisonnement :
- Non-Think : réponses rapides et intuitives, adaptées aux tâches courantes ou aux décisions à faible risque
- Think High : analyse logique délibérée, adaptée à la résolution de problèmes complexes ou à la planification
- Think Max : pousse les capacités de raisonnement jusqu’à leur limite, pour explorer les frontières du raisonnement du modèle

Performances sur benchmarks — modèles Base

DeepSeek-V4-Pro-Base surpasse V3.2-Base et V4-Flash-Base sur la majorité des benchmarks :
- MMLU : 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
- MMLU-Pro : 73.5 (V3.2-Base 65.5)
- Simple-QA Verified : 55.2 (V3.2-Base 28.3)
- FACTS Parametric : 62.6 (V3.2-Base 27.1)
- HumanEval : 76.8 (V3.2-Base 62.8)
- LongBench-V2 : 51.5 (V3.2-Base 40.2)
V4-Flash-Base démontre son efficacité en atteignant, avec seulement 13B paramètres activés, des performances proches de V3.2-Base (37B activés), voire supérieures sur certains benchmarks

Performances sur benchmarks — modèles Instruct (V4-Pro-Max vs modèles frontier)

Excellents résultats sur les benchmarks de code :
- LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
- Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
- Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
Domaine connaissances et raisonnement :
- SimpleQA-Verified 57.9 et Chinese-SimpleQA 84.4, supérieurs à la plupart des modèles mais en deçà de Gemini-3.1-Pro High (75.6, 85.9)
- GPQA Diamond 90.1, MMLU-Pro 87.5
Tâches d’agent :
- SWE Verified 80.6, MCPAtlas Public 73.6, ce qui le place parmi les meilleurs
- Sur Terminal Bench 2.0 (67.9) et HLE w/ tools (48.2), reste en dessous de certains modèles closed source
V4-Flash-Max atteint des performances de raisonnement proches de la version Pro lorsqu’on lui alloue un thinking budget plus important, mais reste légèrement en retrait sur les tâches de connaissance pure et les workflows d’agents complexes en raison de l’écart de taille en paramètres

Comparaison des performances selon les modes

V4-Pro Max signe les meilleures performances sur l’ensemble des benchmarks
Tendance régulière à la hausse des performances en passant de Non-Think → Think High → Think Max :
- Exemple : sur GPQA Diamond, V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
- Exemple : sur LiveCodeBench, V4-Flash Non-Think 55.2 → Max 91.6
V4-Flash Max obtient sur plusieurs benchmarks des performances comparables, voire supérieures, à V4-Pro High

Téléchargement des modèles et précision

Quatre modèles sont proposés : V4-Flash-Base, V4-Flash, V4-Pro-Base et V4-Pro
Les modèles Base utilisent une précision FP8 Mixed, tandis que les modèles Instruct utilisent une précision FP4 + FP8 Mixed
- Les paramètres des experts MoE sont en FP4, la plupart des autres en FP8
Téléchargement disponible sur HuggingFace et ModelScope

Template de chat et exécution locale

Aucun template de chat au format Jinja n’est inclus ; à la place, le dossier encoding fournit des scripts Python et des cas de test pour l’encodage et le parsing de messages au format compatible OpenAI
Paramètres d’échantillonnage recommandés en déploiement local : temperature 1.0, top_p 1.0
En mode Think Max, une fenêtre de contexte d’au moins 384K tokens est recommandée

Licence

Les poids du modèle comme le dépôt sont publiés sous licence MIT

1 commentaires

GN⁺ 5 일 전

Commentaires sur Hacker News

Pour un énorme modèle comme v4 pro, on est autour de 4 dollars par million de tokens en sortie, donc je ne suis pas sûr que l’idée selon laquelle « les labos de pointe subventionnent l’inférence à un niveau délirant » soit vraiment exacte
Les abonnements semblent déjà pouvoir être rentables, et pour les prix API c’est encore plus évident
En entrée, c’est $1.74/M, en sortie $3.48/M selon OpenRouter
- Il y a aussi l’explication selon laquelle les prix sont élevés en ce moment à cause du manque de cartes d’inférence chez DeepSeek
  D’après le communiqué, le prix de Pro devrait fortement baisser au second semestre avec l’arrivée des cartes de calcul Ascend 950
- Sur la base des coûts d’exploitation, ils peuvent être rentables, mais peut-être pas encore si on raisonne en coût du capital avec le calendrier d’amortissement actuel
  Cela dit, même ces estimations de coût semblent récemment partir à la hausse par rapport aux prévisions
- Je vois ça à peu près pareil
  Les services par abonnement sont déjà rentables, et cette histoire de subvention ressemble surtout à un argument pour tirer des marges plus élevées des API destinées aux clients entreprise
- C’est un point juste, mais il n’y a toujours aucun fournisseur occidental capable d’atteindre ces niveaux de prix
  L’électricité est aussi moins chère en Chine
C’est curieusement rassurant de voir les docs développeur sortir avant le communiqué de presse tape-à-l’œil
- Oui, clairement, this is the way
- Si on veut appeler ça de l’open source, où sont les données d’entraînement et les scripts d’entraînement ?
  En regardant la version modifiée, on dirait que l’expression « open source » a disparu du commentaire principal
C’est déjà dispo sur OpenRouter
Pro est à $1.74/m en entrée, $3.48/m en sortie, et Flash à $0.14/m en entrée, $0.28/m en sortie
- Ici j’ai une Api Error
  Tous les autres modèles fonctionnent normalement
- https://openrouter.ai/deepseek/deepseek-v4-pro
  
  https://openrouter.ai/deepseek/deepseek-v4-flash
Je trouve quand même positif de voir un vrai modèle open source venir de Chine
Je sais qu’il peut y avoir des arrière-pensées, mais malgré tout ça me parle
- Les entreprises américaines exigent souvent des vérifications d’identité excessives même pour payer l’accès au modèle, stockent les données, les analysent, les utilisent pour l’entraînement, et disent ouvertement qu’elles peuvent les transmettre aux autorités sur demande
  Les arrière-pensées chinoises relèvent de l’hypothèse, alors que côté américain, c’est affiché sans détour
- Cet article aide à comprendre pourquoi les labos chinois publient leurs modèles
  http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
- Ce sont juste des poids ouverts
Le modèle de base Pro 1.6T a été mis sur Hugging Face
C’est la première fois que je vois une désignation de modèle en T ici
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

Le modèle est sorti, et c’est assez impressionnant
Des performances de niveau frontier pour un coût bien inférieur, et j’ai l’impression que c’est meilleur qu’Opus 4.6
- Je me demande s’il est encore vraiment nécessaire de comparer les modèles à Opus
  Les utilisateurs d’Opus continueront de toute façon à croire que c’est le meilleur, et ceux qui ne l’utilisent pas ne veulent ni son coût, ni son verrouillage, ni ses limites
  Moi, comme non-utilisateur, je prends toujours le modèle le moins cher et le plus rapide qui fait le travail, et en ce moment c’est MiniMax M2.5
  Même quand j’essaie parfois un modèle plus récent et plus cher, les résultats sont similaires, donc je me demande s’il n’y a pas une exagération générale du secteur de l’IA qui donne l’impression que les progrès n’existent que dans les benchmarks
- Je me demande ce que ça donne face à Opus 4.7
  J’ai beaucoup utilisé Anthropic Opus 4.7 cette semaine pendant leur hackathon, et même s’il consomme bien plus de tokens que 4.6, c’était assez impressionnant
- Je me demande si c’est vraiment meilleur qu’Opus 4.6, ou si c’est juste très bien optimisé pour les benchmarks
  J’aimerais savoir s’il a aussi été testé en vrai sur du code avec un agent harness
  Si ses capacités en code sont meilleures que Claude Code + Opus 4.6, je bascule tout de suite
- Voilà, ça recommence
  On a tous les jours un post de lancement disant meilleur qu’Opus 4.6, alors que DeepSeek lui-même ne prétend pas être meilleur qu’Opus en incluant le thinking
  Dsv3 n’était pas un modèle gonflé aux benchmarks, il était plutôt solide hors benchmark aussi, et même s’il n’était pas SoTA, il restait bon
  Celui-ci a l’air dans la même veine
  Un niveau juste en dessous du meilleur, avec un écart faible mais un prix bien plus bas
  Le grand modèle est actuellement servi directement par ds à $1.74 in / $3.48 out / $0.14 cache, ce qui est très bon marché au vu de la valeur fournie
  Le petit modèle est à $0.14 in / $0.28 out / $0.028 cache, donc c’est pratiquement si peu cher qu’on n’a même pas besoin d’y penser, et ça pourrait devenir un candidat réaliste pour tourner chez soi
  Si les performances suivent, ça semble tout à fait capable de rivaliser avec les familles haiku ou gemini-flash
- En faisant un calcul approximatif à partir des benchmarks publics, on obtient un écart total de 20.1 points de pourcentage sur 20 indicateurs où les deux ont un score
  L’amélioration moyenne est d’environ 2 %, et honnêtement je ne sais pas trop si c’est énorme ou anecdotique
  Claude 4.6 était presque 10 pp meilleur en questions-réponses sur contexte long, surtout sur les corpus de CorpusQA et les conversations multi-tours de MRCR
  En revanche, DSv4 avait carrément 14 pp de plus sur IMOAnswerBench et 12 pp de plus sur SimpleQA-Verified
Les poids sont téléchargeables ici
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
- https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
  https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
  
  C’est vraiment bien d’avoir aussi de nouveaux modèles de base
Je m’intéresse beaucoup au domaine et j’y suis aussi très impliqué concrètement, mais honnêtement j’en arrive au burn-out à force d’essayer de tout suivre
On a clairement dépassé depuis un moment le point où il faudrait que l’IA résume les avancées de l’IA pour qu’on puisse encore suivre
- Mieux vaut ne pas essayer de tout suivre
  C’est comme l’actualité : quand quelque chose devient vraiment important à connaître, quelqu’un finit toujours par vous le faire savoir
- Les acteurs clés changent à peine
  On peut suivre ça comme du sport, et si on accepte simplement que la première place change parfois, ce n’est pas si épuisant
- Mon impression, c’est que depuis GPT-4, tout se ressemble un peu
  Chaque nouveau modèle arrive en disant qu’il a amélioré quelques benchmarks, mais l’expérience subjective à l’usage change à peine
  Depuis, il y a eu peu de choses vraiment étonnantes, et j’ai même l’impression que ça stagne désormais dans une zone qui n’intéresse plus que les passionnés
Plus que le fait que High Flyer ait copié Anthropic de manière flagrante pour faire ça, ce qui me dérange davantage, c’est que GAB leur ait laissé assez de temps pour glisser des easter eggs de niveau xz par dizaines là-dedans
Je viens de le tester via OpenRouter dans Pi Coding agent, et il lui arrive souvent de mal utiliser les outils read et write
C’est assez décevant, et je me demande s’il existe une meilleure solution que des prompts du genre « n’utilise pas d’appel direct, utilise toujours les outils fournis »
- Ça vient juste de sortir, donc mieux vaut sans doute attendre un peu
  Il est probable qu’ils n’aient pas encore pu faire suffisamment de tests préalables avec Pi

DeepSeek v4 : un modèle de langage massif à haute efficacité prenant en charge un contexte de 1 million de tokens

Présentation du modèle et architecture

Entraînement et pipeline de post-entraînement

Modes de raisonnement

Performances sur benchmarks — modèles Base

Performances sur benchmarks — modèles Instruct (V4-Pro-Max vs modèles frontier)

Comparaison des performances selon les modes

Téléchargement des modèles et précision

Template de chat et exécution locale

Licence

À lire aussi

1 commentaires

Commentaires sur Hacker News