DeepSeek v4 : un modèle de langage massif à haute efficacité prenant en charge un contexte de 1 million de tokens
(huggingface.co)- Modèle de langage massif basé sur une architecture Mixture-of-Experts (MoE) prenant en charge un contexte de 1M tokens, publié en deux versions : Pro (1.6T paramètres) et Flash (284B paramètres)
- Architecture d’attention hybride combinant Compressed Sparse Attention (CSA) et Heavily Compressed Attention (HCA), utilisant à l’échelle de 1 million de tokens seulement 27 % des FLOPs d’inférence et 10 % du cache KV par rapport à DeepSeek-V3.2
- Après un préentraînement sur plus de 32T tokens, application d’un pipeline de post-entraînement en 2 étapes consistant à entraîner séparément des experts par domaine, puis à les intégrer dans un modèle unique via on-policy distillation
- DeepSeek-V4-Pro-Max atteint les meilleures performances open source sur des benchmarks de code comme LiveCodeBench 93.5, SWE Verified 80.6 et Codeforces 3206
- Prend en charge trois modes de raisonnement : Non-Think, Think High et Think Max, permettant de choisir selon l’usage, des tâches quotidiennes au raisonnement le plus difficile
Présentation du modèle et architecture
- La série DeepSeek-V4 se compose de deux modèles : DeepSeek-V4-Pro (1.6T paramètres au total, 49B activés) et DeepSeek-V4-Flash (284B paramètres au total, 13B activés)
- Les deux modèles prennent en charge une longueur de contexte de 1 million de tokens
- Trois principales évolutions architecturales et optimisations :
- Hybrid Attention Architecture : combine CSA et HCA pour améliorer fortement l’efficacité sur les longs contextes ; à 1 million de tokens, l’inférence d’un token unique descend à 27 % des FLOPs et 10 % du cache KV par rapport à DeepSeek-V3.2
- Manifold-Constrained Hyper-Connections (mHC) : renforce les connexions résiduelles classiques afin d’assurer à la fois la stabilité de propagation des signaux entre couches et la capacité de représentation du modèle
- Muon Optimizer : offre une convergence plus rapide et une meilleure stabilité d’entraînement
Entraînement et pipeline de post-entraînement
- Préentraînement effectué sur plus de 32T tokens variés et de haute qualité
- Le post-entraînement suit un paradigme en 2 étapes :
- Étape 1 : entraînement indépendant d’experts par domaine via SFT et RL (avec GRPO)
- Étape 2 : intégration des expertises de différents domaines dans un modèle unique via on-policy distillation
Modes de raisonnement
- DeepSeek-V4-Pro et DeepSeek-V4-Flash prennent tous deux en charge trois modes de raisonnement :
- Non-Think : réponses rapides et intuitives, adaptées aux tâches courantes ou aux décisions à faible risque
- Think High : analyse logique délibérée, adaptée à la résolution de problèmes complexes ou à la planification
- Think Max : pousse les capacités de raisonnement jusqu’à leur limite, pour explorer les frontières du raisonnement du modèle
Performances sur benchmarks — modèles Base
- DeepSeek-V4-Pro-Base surpasse V3.2-Base et V4-Flash-Base sur la majorité des benchmarks :
- MMLU : 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
- MMLU-Pro : 73.5 (V3.2-Base 65.5)
- Simple-QA Verified : 55.2 (V3.2-Base 28.3)
- FACTS Parametric : 62.6 (V3.2-Base 27.1)
- HumanEval : 76.8 (V3.2-Base 62.8)
- LongBench-V2 : 51.5 (V3.2-Base 40.2)
- V4-Flash-Base démontre son efficacité en atteignant, avec seulement 13B paramètres activés, des performances proches de V3.2-Base (37B activés), voire supérieures sur certains benchmarks
Performances sur benchmarks — modèles Instruct (V4-Pro-Max vs modèles frontier)
- Excellents résultats sur les benchmarks de code :
- LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
- Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
- Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
- Domaine connaissances et raisonnement :
- SimpleQA-Verified 57.9 et Chinese-SimpleQA 84.4, supérieurs à la plupart des modèles mais en deçà de Gemini-3.1-Pro High (75.6, 85.9)
- GPQA Diamond 90.1, MMLU-Pro 87.5
- Tâches d’agent :
- SWE Verified 80.6, MCPAtlas Public 73.6, ce qui le place parmi les meilleurs
- Sur Terminal Bench 2.0 (67.9) et HLE w/ tools (48.2), reste en dessous de certains modèles closed source
- V4-Flash-Max atteint des performances de raisonnement proches de la version Pro lorsqu’on lui alloue un thinking budget plus important, mais reste légèrement en retrait sur les tâches de connaissance pure et les workflows d’agents complexes en raison de l’écart de taille en paramètres
Comparaison des performances selon les modes
- V4-Pro Max signe les meilleures performances sur l’ensemble des benchmarks
- Tendance régulière à la hausse des performances en passant de Non-Think → Think High → Think Max :
- Exemple : sur GPQA Diamond, V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
- Exemple : sur LiveCodeBench, V4-Flash Non-Think 55.2 → Max 91.6
- V4-Flash Max obtient sur plusieurs benchmarks des performances comparables, voire supérieures, à V4-Pro High
Téléchargement des modèles et précision
- Quatre modèles sont proposés : V4-Flash-Base, V4-Flash, V4-Pro-Base et V4-Pro
- Les modèles Base utilisent une précision FP8 Mixed, tandis que les modèles Instruct utilisent une précision FP4 + FP8 Mixed
- Les paramètres des experts MoE sont en FP4, la plupart des autres en FP8
- Téléchargement disponible sur HuggingFace et ModelScope
Template de chat et exécution locale
- Aucun template de chat au format Jinja n’est inclus ; à la place, le dossier
encodingfournit des scripts Python et des cas de test pour l’encodage et le parsing de messages au format compatible OpenAI - Paramètres d’échantillonnage recommandés en déploiement local : temperature 1.0, top_p 1.0
- En mode Think Max, une fenêtre de contexte d’au moins 384K tokens est recommandée
Licence
- Les poids du modèle comme le dépôt sont publiés sous licence MIT
1 commentaires
Commentaires sur Hacker News
Pour un énorme modèle comme v4 pro, on est autour de 4 dollars par million de tokens en sortie, donc je ne suis pas sûr que l’idée selon laquelle « les labos de pointe subventionnent l’inférence à un niveau délirant » soit vraiment exacte
Les abonnements semblent déjà pouvoir être rentables, et pour les prix API c’est encore plus évident
En entrée, c’est $1.74/M, en sortie $3.48/M selon OpenRouter
D’après le communiqué, le prix de Pro devrait fortement baisser au second semestre avec l’arrivée des cartes de calcul Ascend 950
Cela dit, même ces estimations de coût semblent récemment partir à la hausse par rapport aux prévisions
Les services par abonnement sont déjà rentables, et cette histoire de subvention ressemble surtout à un argument pour tirer des marges plus élevées des API destinées aux clients entreprise
L’électricité est aussi moins chère en Chine
C’est curieusement rassurant de voir les docs développeur sortir avant le communiqué de presse tape-à-l’œil
En regardant la version modifiée, on dirait que l’expression « open source » a disparu du commentaire principal
C’est déjà dispo sur OpenRouter
Pro est à $1.74/m en entrée, $3.48/m en sortie, et Flash à $0.14/m en entrée, $0.28/m en sortie
Ici j’ai une Api Error
Tous les autres modèles fonctionnent normalement
https://openrouter.ai/deepseek/deepseek-v4-pro
https://openrouter.ai/deepseek/deepseek-v4-flash
Je trouve quand même positif de voir un vrai modèle open source venir de Chine
Je sais qu’il peut y avoir des arrière-pensées, mais malgré tout ça me parle
Les arrière-pensées chinoises relèvent de l’hypothèse, alors que côté américain, c’est affiché sans détour
http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
Le modèle de base Pro 1.6T a été mis sur Hugging Face
C’est la première fois que je vois une désignation de modèle en T ici
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
Le modèle est sorti, et c’est assez impressionnant
Des performances de niveau frontier pour un coût bien inférieur, et j’ai l’impression que c’est meilleur qu’Opus 4.6
Les utilisateurs d’Opus continueront de toute façon à croire que c’est le meilleur, et ceux qui ne l’utilisent pas ne veulent ni son coût, ni son verrouillage, ni ses limites
Moi, comme non-utilisateur, je prends toujours le modèle le moins cher et le plus rapide qui fait le travail, et en ce moment c’est MiniMax M2.5
Même quand j’essaie parfois un modèle plus récent et plus cher, les résultats sont similaires, donc je me demande s’il n’y a pas une exagération générale du secteur de l’IA qui donne l’impression que les progrès n’existent que dans les benchmarks
J’ai beaucoup utilisé Anthropic Opus 4.7 cette semaine pendant leur hackathon, et même s’il consomme bien plus de tokens que 4.6, c’était assez impressionnant
J’aimerais savoir s’il a aussi été testé en vrai sur du code avec un agent harness
Si ses capacités en code sont meilleures que Claude Code + Opus 4.6, je bascule tout de suite
On a tous les jours un post de lancement disant meilleur qu’Opus 4.6, alors que DeepSeek lui-même ne prétend pas être meilleur qu’Opus en incluant le thinking
Dsv3 n’était pas un modèle gonflé aux benchmarks, il était plutôt solide hors benchmark aussi, et même s’il n’était pas SoTA, il restait bon
Celui-ci a l’air dans la même veine
Un niveau juste en dessous du meilleur, avec un écart faible mais un prix bien plus bas
Le grand modèle est actuellement servi directement par ds à $1.74 in / $3.48 out / $0.14 cache, ce qui est très bon marché au vu de la valeur fournie
Le petit modèle est à $0.14 in / $0.28 out / $0.028 cache, donc c’est pratiquement si peu cher qu’on n’a même pas besoin d’y penser, et ça pourrait devenir un candidat réaliste pour tourner chez soi
Si les performances suivent, ça semble tout à fait capable de rivaliser avec les familles haiku ou gemini-flash
L’amélioration moyenne est d’environ 2 %, et honnêtement je ne sais pas trop si c’est énorme ou anecdotique
Claude 4.6 était presque 10 pp meilleur en questions-réponses sur contexte long, surtout sur les corpus de CorpusQA et les conversations multi-tours de MRCR
En revanche, DSv4 avait carrément 14 pp de plus sur IMOAnswerBench et 12 pp de plus sur SimpleQA-Verified
Les poids sont téléchargeables ici
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base
C’est vraiment bien d’avoir aussi de nouveaux modèles de base
Je m’intéresse beaucoup au domaine et j’y suis aussi très impliqué concrètement, mais honnêtement j’en arrive au burn-out à force d’essayer de tout suivre
On a clairement dépassé depuis un moment le point où il faudrait que l’IA résume les avancées de l’IA pour qu’on puisse encore suivre
C’est comme l’actualité : quand quelque chose devient vraiment important à connaître, quelqu’un finit toujours par vous le faire savoir
On peut suivre ça comme du sport, et si on accepte simplement que la première place change parfois, ce n’est pas si épuisant
Chaque nouveau modèle arrive en disant qu’il a amélioré quelques benchmarks, mais l’expérience subjective à l’usage change à peine
Depuis, il y a eu peu de choses vraiment étonnantes, et j’ai même l’impression que ça stagne désormais dans une zone qui n’intéresse plus que les passionnés
Plus que le fait que High Flyer ait copié Anthropic de manière flagrante pour faire ça, ce qui me dérange davantage, c’est que GAB leur ait laissé assez de temps pour glisser des easter eggs de niveau xz par dizaines là-dedans
Je viens de le tester via OpenRouter dans Pi Coding agent, et il lui arrive souvent de mal utiliser les outils read et write
C’est assez décevant, et je me demande s’il existe une meilleure solution que des prompts du genre « n’utilise pas d’appel direct, utilise toujours les outils fournis »
Il est probable qu’ils n’aient pas encore pu faire suffisamment de tests préalables avec Pi