10 points par GN⁺ 5 일 전 | 1 commentaires | Partager sur WhatsApp
  • Modèle de langage massif basé sur une architecture Mixture-of-Experts (MoE) prenant en charge un contexte de 1M tokens, publié en deux versions : Pro (1.6T paramètres) et Flash (284B paramètres)
  • Architecture d’attention hybride combinant Compressed Sparse Attention (CSA) et Heavily Compressed Attention (HCA), utilisant à l’échelle de 1 million de tokens seulement 27 % des FLOPs d’inférence et 10 % du cache KV par rapport à DeepSeek-V3.2
  • Après un préentraînement sur plus de 32T tokens, application d’un pipeline de post-entraînement en 2 étapes consistant à entraîner séparément des experts par domaine, puis à les intégrer dans un modèle unique via on-policy distillation
  • DeepSeek-V4-Pro-Max atteint les meilleures performances open source sur des benchmarks de code comme LiveCodeBench 93.5, SWE Verified 80.6 et Codeforces 3206
  • Prend en charge trois modes de raisonnement : Non-Think, Think High et Think Max, permettant de choisir selon l’usage, des tâches quotidiennes au raisonnement le plus difficile

Présentation du modèle et architecture

  • La série DeepSeek-V4 se compose de deux modèles : DeepSeek-V4-Pro (1.6T paramètres au total, 49B activés) et DeepSeek-V4-Flash (284B paramètres au total, 13B activés)
  • Les deux modèles prennent en charge une longueur de contexte de 1 million de tokens
  • Trois principales évolutions architecturales et optimisations :
    • Hybrid Attention Architecture : combine CSA et HCA pour améliorer fortement l’efficacité sur les longs contextes ; à 1 million de tokens, l’inférence d’un token unique descend à 27 % des FLOPs et 10 % du cache KV par rapport à DeepSeek-V3.2
    • Manifold-Constrained Hyper-Connections (mHC) : renforce les connexions résiduelles classiques afin d’assurer à la fois la stabilité de propagation des signaux entre couches et la capacité de représentation du modèle
    • Muon Optimizer : offre une convergence plus rapide et une meilleure stabilité d’entraînement

Entraînement et pipeline de post-entraînement

  • Préentraînement effectué sur plus de 32T tokens variés et de haute qualité
  • Le post-entraînement suit un paradigme en 2 étapes :
    • Étape 1 : entraînement indépendant d’experts par domaine via SFT et RL (avec GRPO)
    • Étape 2 : intégration des expertises de différents domaines dans un modèle unique via on-policy distillation

Modes de raisonnement

  • DeepSeek-V4-Pro et DeepSeek-V4-Flash prennent tous deux en charge trois modes de raisonnement :
    • Non-Think : réponses rapides et intuitives, adaptées aux tâches courantes ou aux décisions à faible risque
    • Think High : analyse logique délibérée, adaptée à la résolution de problèmes complexes ou à la planification
    • Think Max : pousse les capacités de raisonnement jusqu’à leur limite, pour explorer les frontières du raisonnement du modèle

Performances sur benchmarks — modèles Base

  • DeepSeek-V4-Pro-Base surpasse V3.2-Base et V4-Flash-Base sur la majorité des benchmarks :
    • MMLU : 90.1 (V3.2-Base 87.8, V4-Flash-Base 88.7)
    • MMLU-Pro : 73.5 (V3.2-Base 65.5)
    • Simple-QA Verified : 55.2 (V3.2-Base 28.3)
    • FACTS Parametric : 62.6 (V3.2-Base 27.1)
    • HumanEval : 76.8 (V3.2-Base 62.8)
    • LongBench-V2 : 51.5 (V3.2-Base 40.2)
  • V4-Flash-Base démontre son efficacité en atteignant, avec seulement 13B paramètres activés, des performances proches de V3.2-Base (37B activés), voire supérieures sur certains benchmarks

Performances sur benchmarks — modèles Instruct (V4-Pro-Max vs modèles frontier)

  • Excellents résultats sur les benchmarks de code :
    • LiveCodeBench 93.5 (Gemini-3.1-Pro High 91.7, Opus-4.6 Max 88.8)
    • Codeforces 3206 (GPT-5.4 xHigh 3168, Gemini-3.1-Pro High 3052)
    • Apex Shortlist 90.2 (Gemini-3.1-Pro High 89.1)
  • Domaine connaissances et raisonnement :
    • SimpleQA-Verified 57.9 et Chinese-SimpleQA 84.4, supérieurs à la plupart des modèles mais en deçà de Gemini-3.1-Pro High (75.6, 85.9)
    • GPQA Diamond 90.1, MMLU-Pro 87.5
  • Tâches d’agent :
    • SWE Verified 80.6, MCPAtlas Public 73.6, ce qui le place parmi les meilleurs
    • Sur Terminal Bench 2.0 (67.9) et HLE w/ tools (48.2), reste en dessous de certains modèles closed source
  • V4-Flash-Max atteint des performances de raisonnement proches de la version Pro lorsqu’on lui alloue un thinking budget plus important, mais reste légèrement en retrait sur les tâches de connaissance pure et les workflows d’agents complexes en raison de l’écart de taille en paramètres

Comparaison des performances selon les modes

  • V4-Pro Max signe les meilleures performances sur l’ensemble des benchmarks
  • Tendance régulière à la hausse des performances en passant de Non-Think → Think High → Think Max :
    • Exemple : sur GPQA Diamond, V4-Pro Non-Think 72.9 → High 89.1 → Max 90.1
    • Exemple : sur LiveCodeBench, V4-Flash Non-Think 55.2 → Max 91.6
  • V4-Flash Max obtient sur plusieurs benchmarks des performances comparables, voire supérieures, à V4-Pro High

Téléchargement des modèles et précision

  • Quatre modèles sont proposés : V4-Flash-Base, V4-Flash, V4-Pro-Base et V4-Pro
  • Les modèles Base utilisent une précision FP8 Mixed, tandis que les modèles Instruct utilisent une précision FP4 + FP8 Mixed
    • Les paramètres des experts MoE sont en FP4, la plupart des autres en FP8
  • Téléchargement disponible sur HuggingFace et ModelScope

Template de chat et exécution locale

  • Aucun template de chat au format Jinja n’est inclus ; à la place, le dossier encoding fournit des scripts Python et des cas de test pour l’encodage et le parsing de messages au format compatible OpenAI
  • Paramètres d’échantillonnage recommandés en déploiement local : temperature 1.0, top_p 1.0
  • En mode Think Max, une fenêtre de contexte d’au moins 384K tokens est recommandée

Licence

  • Les poids du modèle comme le dépôt sont publiés sous licence MIT

1 commentaires

 
GN⁺ 5 일 전
Commentaires sur Hacker News
  • Pour un énorme modèle comme v4 pro, on est autour de 4 dollars par million de tokens en sortie, donc je ne suis pas sûr que l’idée selon laquelle « les labos de pointe subventionnent l’inférence à un niveau délirant » soit vraiment exacte
    Les abonnements semblent déjà pouvoir être rentables, et pour les prix API c’est encore plus évident
    En entrée, c’est $1.74/M, en sortie $3.48/M selon OpenRouter

    • Il y a aussi l’explication selon laquelle les prix sont élevés en ce moment à cause du manque de cartes d’inférence chez DeepSeek
      D’après le communiqué, le prix de Pro devrait fortement baisser au second semestre avec l’arrivée des cartes de calcul Ascend 950
    • Sur la base des coûts d’exploitation, ils peuvent être rentables, mais peut-être pas encore si on raisonne en coût du capital avec le calendrier d’amortissement actuel
      Cela dit, même ces estimations de coût semblent récemment partir à la hausse par rapport aux prévisions
    • Je vois ça à peu près pareil
      Les services par abonnement sont déjà rentables, et cette histoire de subvention ressemble surtout à un argument pour tirer des marges plus élevées des API destinées aux clients entreprise
    • C’est un point juste, mais il n’y a toujours aucun fournisseur occidental capable d’atteindre ces niveaux de prix
      L’électricité est aussi moins chère en Chine
  • C’est curieusement rassurant de voir les docs développeur sortir avant le communiqué de presse tape-à-l’œil

    • Oui, clairement, this is the way
    • Si on veut appeler ça de l’open source, où sont les données d’entraînement et les scripts d’entraînement ?
      En regardant la version modifiée, on dirait que l’expression « open source » a disparu du commentaire principal
  • C’est déjà dispo sur OpenRouter
    Pro est à $1.74/m en entrée, $3.48/m en sortie, et Flash à $0.14/m en entrée, $0.28/m en sortie

  • Je trouve quand même positif de voir un vrai modèle open source venir de Chine
    Je sais qu’il peut y avoir des arrière-pensées, mais malgré tout ça me parle

    • Les entreprises américaines exigent souvent des vérifications d’identité excessives même pour payer l’accès au modèle, stockent les données, les analysent, les utilisent pour l’entraînement, et disent ouvertement qu’elles peuvent les transmettre aux autorités sur demande
      Les arrière-pensées chinoises relèvent de l’hypothèse, alors que côté américain, c’est affiché sans détour
    • Cet article aide à comprendre pourquoi les labos chinois publient leurs modèles
      http://try.works/why-chinese-ai-labs-went-open-and-will-remain-open
    • Ce sont juste des poids ouverts
  • Le modèle de base Pro 1.6T a été mis sur Hugging Face
    C’est la première fois que je vois une désignation de modèle en T ici

  • https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

    Le modèle est sorti, et c’est assez impressionnant
    Des performances de niveau frontier pour un coût bien inférieur, et j’ai l’impression que c’est meilleur qu’Opus 4.6

    • Je me demande s’il est encore vraiment nécessaire de comparer les modèles à Opus
      Les utilisateurs d’Opus continueront de toute façon à croire que c’est le meilleur, et ceux qui ne l’utilisent pas ne veulent ni son coût, ni son verrouillage, ni ses limites
      Moi, comme non-utilisateur, je prends toujours le modèle le moins cher et le plus rapide qui fait le travail, et en ce moment c’est MiniMax M2.5
      Même quand j’essaie parfois un modèle plus récent et plus cher, les résultats sont similaires, donc je me demande s’il n’y a pas une exagération générale du secteur de l’IA qui donne l’impression que les progrès n’existent que dans les benchmarks
    • Je me demande ce que ça donne face à Opus 4.7
      J’ai beaucoup utilisé Anthropic Opus 4.7 cette semaine pendant leur hackathon, et même s’il consomme bien plus de tokens que 4.6, c’était assez impressionnant
    • Je me demande si c’est vraiment meilleur qu’Opus 4.6, ou si c’est juste très bien optimisé pour les benchmarks
      J’aimerais savoir s’il a aussi été testé en vrai sur du code avec un agent harness
      Si ses capacités en code sont meilleures que Claude Code + Opus 4.6, je bascule tout de suite
    • Voilà, ça recommence
      On a tous les jours un post de lancement disant meilleur qu’Opus 4.6, alors que DeepSeek lui-même ne prétend pas être meilleur qu’Opus en incluant le thinking
      Dsv3 n’était pas un modèle gonflé aux benchmarks, il était plutôt solide hors benchmark aussi, et même s’il n’était pas SoTA, il restait bon
      Celui-ci a l’air dans la même veine
      Un niveau juste en dessous du meilleur, avec un écart faible mais un prix bien plus bas
      Le grand modèle est actuellement servi directement par ds à $1.74 in / $3.48 out / $0.14 cache, ce qui est très bon marché au vu de la valeur fournie
      Le petit modèle est à $0.14 in / $0.28 out / $0.028 cache, donc c’est pratiquement si peu cher qu’on n’a même pas besoin d’y penser, et ça pourrait devenir un candidat réaliste pour tourner chez soi
      Si les performances suivent, ça semble tout à fait capable de rivaliser avec les familles haiku ou gemini-flash
    • En faisant un calcul approximatif à partir des benchmarks publics, on obtient un écart total de 20.1 points de pourcentage sur 20 indicateurs où les deux ont un score
      L’amélioration moyenne est d’environ 2 %, et honnêtement je ne sais pas trop si c’est énorme ou anecdotique
      Claude 4.6 était presque 10 pp meilleur en questions-réponses sur contexte long, surtout sur les corpus de CorpusQA et les conversations multi-tours de MRCR
      En revanche, DSv4 avait carrément 14 pp de plus sur IMOAnswerBench et 12 pp de plus sur SimpleQA-Verified
  • Les poids sont téléchargeables ici
    https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

  • Je m’intéresse beaucoup au domaine et j’y suis aussi très impliqué concrètement, mais honnêtement j’en arrive au burn-out à force d’essayer de tout suivre
    On a clairement dépassé depuis un moment le point où il faudrait que l’IA résume les avancées de l’IA pour qu’on puisse encore suivre

    • Mieux vaut ne pas essayer de tout suivre
      C’est comme l’actualité : quand quelque chose devient vraiment important à connaître, quelqu’un finit toujours par vous le faire savoir
    • Les acteurs clés changent à peine
      On peut suivre ça comme du sport, et si on accepte simplement que la première place change parfois, ce n’est pas si épuisant
    • Mon impression, c’est que depuis GPT-4, tout se ressemble un peu
      Chaque nouveau modèle arrive en disant qu’il a amélioré quelques benchmarks, mais l’expérience subjective à l’usage change à peine
      Depuis, il y a eu peu de choses vraiment étonnantes, et j’ai même l’impression que ça stagne désormais dans une zone qui n’intéresse plus que les passionnés
  • Plus que le fait que High Flyer ait copié Anthropic de manière flagrante pour faire ça, ce qui me dérange davantage, c’est que GAB leur ait laissé assez de temps pour glisser des easter eggs de niveau xz par dizaines là-dedans

  • Je viens de le tester via OpenRouter dans Pi Coding agent, et il lui arrive souvent de mal utiliser les outils read et write
    C’est assez décevant, et je me demande s’il existe une meilleure solution que des prompts du genre « n’utilise pas d’appel direct, utilise toujours les outils fournis »

    • Ça vient juste de sortir, donc mieux vaut sans doute attendre un peu
      Il est probable qu’ils n’aient pas encore pu faire suffisamment de tests préalables avec Pi