Résumé de lecture de l’article sur DeepSeek-V4 - Noh Jeong-seok

(youtube.com)

10 points par ragingwind 1 일 전 | 3 commentaires | Partager sur WhatsApp

La publication de DeepSeek-V4 a été l’événement le plus marquant au milieu d’une série d’annonces majeures, comme GPT-5.5 et Google Cloud Next, durant la quatrième semaine d’avril 2026, en traçant une nouvelle référence pour les frontier labs et l’innovation architecturale. Apparu environ 1 an et 4 mois après R1, ce modèle passe d’une échelle de 600B pour V3 à 1.6T, avec une légère hausse du nombre de paramètres activés. Surtout, trois changements algorithmiques ont été appliqués simultanément — Sparse Attention, mHC (Manifold-Constrained Hyper-Connections) et l’optimiseur Muon — et le résultat est consigné de façon très dense dans un article d’une quarantaine de pages. Kim Seong-hyeon et Noh Jeong-seok estiment que ce rapport n’est pas une simple démonstration de performances, mais le récit d’une année entière d’essais et d’erreurs douloureux.

Principaux changements d’architecture

Adoption à grande échelle de Sparse Attention : au lieu de référencer tous les tokens précédents comme dans l’approche classique, le modèle ne consulte qu’un sous-ensemble de tokens pertinents. La structure combine trois éléments : une sliding window attention, une full attention sur des tokens compressés à 1/100, et une Compressed Sparse Attention où les tokens sont compressés à 1/4 puis un top-k est sélectionné via le Lightning Indexer.
Application de mHC : une structure qui stabilise sur une variété les Hyper-Connections, lesquelles élargissent le passage des connexions résiduelles — un élément central du deep learning — afin d’en assouplir les contraintes.
Adoption de l’optimiseur Muon : un optimiseur devenu de fait un quasi-standard dans les modèles chinois depuis Adam, qui améliore à la fois la vitesse d’entraînement et l’efficacité des données.
Suppression de MLA : DeepSeek abandonne MLA, qui faisait presque figure de signature, au profit d’un simple Multi-Query Attention.

Points forts et avantages distinctifs

Forte baisse du coût du long contexte : malgré un modèle 2,5 à 3 fois plus grand que V3, le compute des opérations sur les tokens tombe à environ 27 % et la mémoire du cache KV à environ 10 %.
Apprentissage du long contexte dès le préentraînement : le premier trillion de tokens a été entraîné en 4K~16K, puis plus de 30T tokens l’ont été en 64K et au-delà. Cela tranche avec la pratique consistant à étendre le contexte en post-traitement.
Profondeur de l’optimisation infrastructurelle : amélioration du chevauchement communication/calcul MoE de Comet de ByteDance, megakernel poussé jusqu’au power throttling, contribution à TileLang, forte optimisation des batch invariance kernels, compression MXFP4 (4 bits) des poids d’experts, etc.
Leadership algorithmique : alors que les big tech américaines ne dévoilent pas leurs architectures, certains estiment que, sur le seul terrain du préentraînement, DeepSeek atteint un niveau comparable, voire légèrement supérieur sur certains aspects.

Inconvénients et limites

Instabilité de l’entraînement : contrairement au discours récent de nombreux développeurs de LLM selon lequel l’entraînement est devenu très stable, DeepSeek-V4 montre avec franchise avoir rencontré des problèmes d’instabilité à plusieurs endroits. L’équipe a eu recours à des ajustements du gating MoE, au clamping, et même à des mécanismes complexes comme l’Anticipatory Routing, qui route à partir de poids d’étapes antérieures.
Difficulté de reproduction : plusieurs équipes en Chine ont conclu qu’il est très difficile d’entraîner Sparse Attention pratiquement depuis zéro. Même si DeepSeek y est parvenu, il est probable que d’autres équipes ne puissent pas suivre facilement.
Limites du post-training : par rapport au bond réalisé en préentraînement, le post-training semble encore disposer d’une marge de progression notable. C’est un domaine qui pourrait être fortement renforcé dans les phases 4.1 et 4.2.
Silence sur les données : le document se contente d’indiquer que 32T tokens ont été préparés, sans presque rien dire de la composition précise des données, notamment sur l’usage éventuel de données synthétiques.

Éléments différenciants

Publication transparente : à la différence d’autres frontier labs qui cachent leur architecture, DeepSeek expose relativement franchement sa structure et ses tâtonnements.
Conception intégrée dès la phase de préentraînement : long contexte, Sparse Attention et quantification FP4 sont intégrés au préentraînement plutôt qu’ajoutés en post-traitement.
Diversification matérielle : l’entreprise indique utiliser en parallèle des puces NVIDIA et Huawei, ce qui suggère que des alternatives chinoises dans les semi-conducteurs sont en train de s’installer.

Signification du point de vue de l’industrie

Évolution du paysage des frontier labs chinoises : près de cinq équipes — DeepSeek, Kimi, Z.ai(GLM), Tencent Hunyuan 3 et Xiaomi MiMo — apparaissent désormais simultanément au premier plan, et certains considèrent qu’en matière de préentraînement, la Chine a atteint l’égalité avec les États-Unis, voire pris un léger avantage sur certains segments.
Le post-training comme prochain champ de bataille : il semble probable qu’un volume de compute comparable à celui du préentraînement soit bientôt investi dans le post-training, et l’écart qui s’y creusera pourrait devenir le point décisif de la prochaine génération.
Banalisation des mises à jour de modèles : avec GPT-5.5, Claude Mythos, Spud et DeepSeek-V4 renouvelant leurs modèles de base à peu près en même temps, on voit se dessiner une tendance où les mises à jour de modèles deviennent aussi banales que celles du navigateur Chrome.

Au-delà des seuls indicateurs de performance d’un modèle, ce DeepSeek-V4 ressemble surtout à un document qui montre comment une équipe a affronté de front, pendant un an, une série de problèmes difficiles. La tentative d’embarquer Sparse Attention dès la phase de préentraînement, le travail d’infrastructure qui a permis de ramener le coût du long contexte à un ratio à un chiffre à l’échelle 1.6T, ainsi que les dispositifs atypiques introduits pour lutter contre l’instabilité de l’entraînement, pourraient devenir la nouvelle base des futurs modèles frontier venus de Chine. En même temps, les défis qui subsistent sur le post-training et les données restent bien visibles, si bien que la capacité des versions 4.1 et 4.2 à réduire cet écart sera probablement l’un des principaux points à suivre au trimestre prochain.

3 commentaires

junghwanlee 23 시간 전

M. Noh Seong-hun → M. Kim Seong-hyeon.

xguru 23 시간 전

J’ai apporté les corrections.

ragingwind 23 시간 전

Merci. Il faut le corriger.

Résumé de lecture de l’article sur DeepSeek-V4 - Noh Jeong-seok

À lire aussi

3 commentaires