- DeepSeek-V3.2 est un modèle de langage de grande taille open source qui combine une forte efficacité de calcul avec des performances élevées de raisonnement et d’agent.
- Grâce à la nouvelle architecture DeepSeek Sparse Attention (DSA), il conserve ses performances sur de longs contextes tout en réduisant fortement la complexité de calcul.
- Avec un cadre d’apprentissage par renforcement (RL) extensible, il atteint des performances de niveau GPT-5, tandis que la version haute performance atteint une capacité de raisonnement équivalente à Gemini-3.0-Pro.
- Le pipeline de synthèse de travaux de type agent à grande échelle génère 1 800 environnements et 85 000 prompts, améliorant la généralisation et la capacité d’exécution des consignes dans des environnements d’interactions complexes.
- Les modèles open source comblent l’écart avec les modèles fermés et s’imposent comme une alternative plus efficiente en coût.
Aperçu de DeepSeek-V3.2
- DeepSeek-V3.2 a été conçu pour surmonter les limites de raisonnement et de performance agentique des LLM open source.
- Il repose sur trois technologies clés : DeepSeek Sparse Attention (DSA), un framework d’apprentissage par renforcement à grande échelle, et un pipeline de synthèse de tâches orientées agents à grande échelle.
- La version haute performance DeepSeek-V3.2-Speciale dépasse GPT-5 et dispose d’une capacité de raisonnement comparable à Gemini-3.0-Pro.
- En 2025, il a enregistré des résultats de niveau médaille d’or à l’International Mathematical Olympiad (IMO) et à l’International Olympiad in Informatics (IOI), entre autres.
- En améliorant simultanément l’efficacité et la performance des modèles open source, il réduit l’écart avec les modèles fermés.
Limites des modèles ouverts et axes d’amélioration
- Trois limites sont avancées pour expliquer pourquoi les LLM open source sont en retard par rapport aux modèles fermés.
- L’inefficacité de la structure d’attention de base augmente la charge de calcul lors du traitement de longues séquences.
- Un manque de ressources de calcul lors de la phase de post-training entraîne une baisse de performance sur les tâches difficiles.
- Le manque de généralisation des agents et de capacité d’exécution des consignes limite leur usage en conditions réelles.
- DeepSeek-V3.2 introduit une structure d’attention efficace, un cadre d’apprentissage RL évolutif et un pipeline d’intégration du raisonnement avec usage d’outils pour y répondre.
DeepSeek Sparse Attention (DSA)
- La DSA est composée d’un lightning indexer et d’un mécanisme de sélection fine des tokens.
- Le lightning indexer fonctionne en précision FP8 et détermine, pour chaque token de requête, les k meilleures paires clé-valeur à sélectionner.
- Cela réduit la complexité de O(L²) à O(Lk) et permet un traitement efficace même sur de longs contextes.
- L’implémentation basée sur MLA conserve la compatibilité avec DeepSeek-V3.1-Terminus.
- Deux phases d’entraînement continu sont effectuées :
- Initialisation de l’indexer lors de la phase Dense Warm-up.
- Pendant la phase Sparse Training, adaptation de l’ensemble du modèle au motif DSA avec un entraînement de 943.7B tokens.
Évaluation des performances et efficacité
- DeepSeek-V3.2-Exp améliore considérablement l’efficacité du traitement en longs contextes tout en maintenant des résultats équivalents à DeepSeek-V3.1-Terminus sans dégradation des performances.
- Sur des benchmarks indépendants comme AA-LCR3 et Fiction.liveBench, il enregistre de meilleurs scores de raisonnement que la génération précédente.
- Sur un cluster GPU H800, le coût par token est fortement réduit, permettant une amélioration de la vitesse de bout en bout.
Structure de post-training et apprentissage par renforcement
- Il combine Specialist Distillation et Mixed RL.
- Il entraîne par RL six modèles d’experts spécialisés : mathématiques, programmation, raisonnement logique, agent général, agent code et agent recherche.
- Les données de chaque modèle spécialisé sont distillées pour générer le checkpoint final.
- Il intègre apprentissage de raisonnement, d’agents et d’alignement via l’algorithme Group Relative Policy Optimization (GRPO).
- Il combine modèles de récompense, pénalité de longueur et récompense de cohérence linguistique.
- DeepSeek-V3.2-Speciale ajoute les données DeepSeekMath-V2 et le schéma de récompense associé pour renforcer les capacités de démonstration mathématique.
Techniques de stabilisation du RL (Scaling GRPO)
- L’Unbiased KL Estimate permet une convergence stable.
- Elle résout les problèmes de gradients instables de l’estimateur K3 précédent.
- Grâce à l’Off-Policy Sequence Masking, les échantillons négatifs avec une forte incohérence de politique sont masqués, améliorant la stabilité de l’entraînement.
- Le Keep Routing maintient la cohérence du routage dans les modèles Mixture-of-Experts.
- Le Keep Sampling Mask empêche l’incohérence de l’espace d’actions entre politiques lors du sampling top-p, top-k.
Raisonnement orienté usage d’outils (Thinking in Tool-Use)
- L’introduction du Thinking Context Management évite des recalculs inutiles lors des appels d’outils.
- Le contenu de raisonnement précédent est supprimé uniquement lorsqu’un nouveau message utilisateur est ajouté.
- L’historique des appels d’outil est conservé pour une gestion efficace du contexte.
- Au stade Cold-Start, les données de raisonnement et les données agent sont combinées.
- Les données de reasoning utilisent la balise
<think></think> pour expliciter le chemin de raisonnement.
- L’intégration d’un apprentissage de base est préparée via des prompts système incluant des appels d’outils.
- La synthèse de travaux d’agents à grande échelle permet de générer 1 800 environnements et 85 000 prompts.
- Un apprentissage RL basé sur des environnements réels est effectué avec des API de recherche web réelles, des outils d’exécution de code, Jupyter Notebook, etc.
- Le Search Agent automatise la génération de questions, la validation et l’évaluation de la récompense via un pipeline multi-agents.
- Un modèle de récompense hybride est utilisé pour optimiser simultanément la fiabilité factuelle et l’utilité pratique.
Conclusion
- DeepSeek-V3.2 dépasse les limites des modèles ouverts en combinant une structure d’attention efficace et un apprentissage RL à grande échelle.
- Il réduit fortement l’écart de performance en raisonnement et performance d’agent intégré avec les modèles fermés, tout en s’imposant comme une alternative économique.
- Il est perçu comme un exemple de trajectoire pour une évolution durable et haute performance des LLM open source.
1 commentaires
Avis Hacker News
Il est impressionnant de les voir continuer à améliorer l’efficacité des coûts tout en partageant publiquement leur progression
J’espère que ce type d’effort contribuera à freiner les monopoles de l’IA
Si les modèles open peuvent rivaliser avec les modèles commerciaux, on peut se demander comment des entreprises comme Google, Anthropic ou OpenAI pourront gagner de l’argent avec l’IA
Si l’open source a échoué par le passé, c’est parce qu’il restait derrière les solutions fermées sur la qualité et la profondeur fonctionnelle, mais on a maintenant l’impression que les performances entrent dans une phase de stagnation
Au final, j’ai l’impression que le vainqueur à long terme sera celui qui disposera de l’infrastructure énergétique la moins chère
Comme quand Amazon propose l’API MongoDB comme service, le modèle économique revient au final à facturer l’usage de l’infrastructure
La plupart des entreprises n’ont pas les moyens d’héberger elles-mêmes des modèles SOTA. Il suffit de voir qu’elles n’exploitent même pas leurs propres serveurs mail
Google a créé le Transformer, OpenAI a fait décoller ChatGPT avec le RLHF, mais aujourd’hui ce sont de nouveau les résumés IA de Google qui occupent le haut des résultats de recherche
Document associé : Google “We have no moat, and neither does OpenAI”
Ce modèle aurait fortement progressé non seulement sur les benchmarks, mais aussi en efficacité d’inférence
Lien associé : comparaison des performances par Thomas Ip
Le chat template de DeepSeek-V3.2 a beaucoup changé.
Au début, j’ai cru qu’ils avaient inventé un nouveau format, mais en regardant la syntaxe, cela semble en fait pratiquement identique au format Harmony
Dans ce cas, il aurait été plus simple de l’indiquer dès le départ comme compatible Harmony
Je me demande pourquoi il n’existe presque pas de modèles dans la plage 32 à 512 Go, et pourquoi le Mac Studio M4 plafonne à 128 Go de RAM
C’est génial de voir ce type de modèle publié en open source. Mais je me demande si même une machine à 20 000 $ équipée de quatre RTX 5090 peut l’exécuter à une vitesse suffisante
Cela tend plutôt à confirmer l’affirmation du commentaire initial selon laquelle c’est lent pour un usage grand public
Si l’on regarde le tableau 3 du papier, DS-Speciale se place en 1re ou 2e position sur presque tous les tests, mais produit plus de 50 % de tokens en plus
On peut aussi faire évoluer les performances de raisonnement avec plus de calcul en générant plusieurs réponses en parallèle puis en choisissant la meilleure
Après quelques heures d’utilisation, c’est un modèle très solide et compétitif. Je le trouve meilleur que GLM4.6 et aussi supérieur à Kimi K2. J’attends la v4 avec impatience
Le fait qu’il s’agisse d’un grand modèle frontier publié sous licence MIT est intéressant
Je comprends mal les critères d’évaluation de l’industrie américaine de l’IA. Les modèles chinois sont bien moins chers tout en offrant des performances presque équivalentes
En plus, les benchmarks sont saturés, donc les écarts paraissent faibles, mais au plus haut niveau, 1 % de différence peut en réalité être très significatif
Sur le leaderboard Metabench que j’ai créé, les modèles chinois sont bons, mais il subsiste malgré tout un écart avec le haut du classement
En revanche, avec leur faible coût d’inférence, les modèles chinois sont très forts sur le terrain du rapport qualité-prix
Les entreprises américaines ne vendent pas seulement le modèle, mais aussi une infrastructure mondiale à faible latence. C’est ce qui explique leur valorisation élevée
À titre de référence, Cerebras propose un GLM 4.6 très rapide
Il y a peut-être aussi l’hypothèse implicite que DeepSeek sera interdit et que l’open source sera bloqué aux États-Unis
À l’avenir, les modèles frontier pourraient se différencier sur des cas limites très spécifiques