6 points par GN⁺ 2025-12-02 | 1 commentaires | Partager sur WhatsApp
  • DeepSeek-V3.2 est un modèle de langage de grande taille open source qui combine une forte efficacité de calcul avec des performances élevées de raisonnement et d’agent.
  • Grâce à la nouvelle architecture DeepSeek Sparse Attention (DSA), il conserve ses performances sur de longs contextes tout en réduisant fortement la complexité de calcul.
  • Avec un cadre d’apprentissage par renforcement (RL) extensible, il atteint des performances de niveau GPT-5, tandis que la version haute performance atteint une capacité de raisonnement équivalente à Gemini-3.0-Pro.
  • Le pipeline de synthèse de travaux de type agent à grande échelle génère 1 800 environnements et 85 000 prompts, améliorant la généralisation et la capacité d’exécution des consignes dans des environnements d’interactions complexes.
  • Les modèles open source comblent l’écart avec les modèles fermés et s’imposent comme une alternative plus efficiente en coût.

Aperçu de DeepSeek-V3.2

  • DeepSeek-V3.2 a été conçu pour surmonter les limites de raisonnement et de performance agentique des LLM open source.
    • Il repose sur trois technologies clés : DeepSeek Sparse Attention (DSA), un framework d’apprentissage par renforcement à grande échelle, et un pipeline de synthèse de tâches orientées agents à grande échelle.
  • La version haute performance DeepSeek-V3.2-Speciale dépasse GPT-5 et dispose d’une capacité de raisonnement comparable à Gemini-3.0-Pro.
    • En 2025, il a enregistré des résultats de niveau médaille d’or à l’International Mathematical Olympiad (IMO) et à l’International Olympiad in Informatics (IOI), entre autres.
  • En améliorant simultanément l’efficacité et la performance des modèles open source, il réduit l’écart avec les modèles fermés.

Limites des modèles ouverts et axes d’amélioration

  • Trois limites sont avancées pour expliquer pourquoi les LLM open source sont en retard par rapport aux modèles fermés.
    • L’inefficacité de la structure d’attention de base augmente la charge de calcul lors du traitement de longues séquences.
    • Un manque de ressources de calcul lors de la phase de post-training entraîne une baisse de performance sur les tâches difficiles.
    • Le manque de généralisation des agents et de capacité d’exécution des consignes limite leur usage en conditions réelles.
  • DeepSeek-V3.2 introduit une structure d’attention efficace, un cadre d’apprentissage RL évolutif et un pipeline d’intégration du raisonnement avec usage d’outils pour y répondre.

DeepSeek Sparse Attention (DSA)

  • La DSA est composée d’un lightning indexer et d’un mécanisme de sélection fine des tokens.
    • Le lightning indexer fonctionne en précision FP8 et détermine, pour chaque token de requête, les k meilleures paires clé-valeur à sélectionner.
    • Cela réduit la complexité de O(L²) à O(Lk) et permet un traitement efficace même sur de longs contextes.
  • L’implémentation basée sur MLA conserve la compatibilité avec DeepSeek-V3.1-Terminus.
  • Deux phases d’entraînement continu sont effectuées :
    • Initialisation de l’indexer lors de la phase Dense Warm-up.
    • Pendant la phase Sparse Training, adaptation de l’ensemble du modèle au motif DSA avec un entraînement de 943.7B tokens.

Évaluation des performances et efficacité

  • DeepSeek-V3.2-Exp améliore considérablement l’efficacité du traitement en longs contextes tout en maintenant des résultats équivalents à DeepSeek-V3.1-Terminus sans dégradation des performances.
  • Sur des benchmarks indépendants comme AA-LCR3 et Fiction.liveBench, il enregistre de meilleurs scores de raisonnement que la génération précédente.
  • Sur un cluster GPU H800, le coût par token est fortement réduit, permettant une amélioration de la vitesse de bout en bout.

Structure de post-training et apprentissage par renforcement

  • Il combine Specialist Distillation et Mixed RL.
    • Il entraîne par RL six modèles d’experts spécialisés : mathématiques, programmation, raisonnement logique, agent général, agent code et agent recherche.
    • Les données de chaque modèle spécialisé sont distillées pour générer le checkpoint final.
  • Il intègre apprentissage de raisonnement, d’agents et d’alignement via l’algorithme Group Relative Policy Optimization (GRPO).
    • Il combine modèles de récompense, pénalité de longueur et récompense de cohérence linguistique.
  • DeepSeek-V3.2-Speciale ajoute les données DeepSeekMath-V2 et le schéma de récompense associé pour renforcer les capacités de démonstration mathématique.

Techniques de stabilisation du RL (Scaling GRPO)

  • L’Unbiased KL Estimate permet une convergence stable.
    • Elle résout les problèmes de gradients instables de l’estimateur K3 précédent.
  • Grâce à l’Off-Policy Sequence Masking, les échantillons négatifs avec une forte incohérence de politique sont masqués, améliorant la stabilité de l’entraînement.
  • Le Keep Routing maintient la cohérence du routage dans les modèles Mixture-of-Experts.
  • Le Keep Sampling Mask empêche l’incohérence de l’espace d’actions entre politiques lors du sampling top-p, top-k.

Raisonnement orienté usage d’outils (Thinking in Tool-Use)

  • L’introduction du Thinking Context Management évite des recalculs inutiles lors des appels d’outils.
    • Le contenu de raisonnement précédent est supprimé uniquement lorsqu’un nouveau message utilisateur est ajouté.
    • L’historique des appels d’outil est conservé pour une gestion efficace du contexte.
  • Au stade Cold-Start, les données de raisonnement et les données agent sont combinées.
    • Les données de reasoning utilisent la balise <think></think> pour expliciter le chemin de raisonnement.
    • L’intégration d’un apprentissage de base est préparée via des prompts système incluant des appels d’outils.
  • La synthèse de travaux d’agents à grande échelle permet de générer 1 800 environnements et 85 000 prompts.
    • Un apprentissage RL basé sur des environnements réels est effectué avec des API de recherche web réelles, des outils d’exécution de code, Jupyter Notebook, etc.
    • Le Search Agent automatise la génération de questions, la validation et l’évaluation de la récompense via un pipeline multi-agents.
    • Un modèle de récompense hybride est utilisé pour optimiser simultanément la fiabilité factuelle et l’utilité pratique.

Conclusion

  • DeepSeek-V3.2 dépasse les limites des modèles ouverts en combinant une structure d’attention efficace et un apprentissage RL à grande échelle.
  • Il réduit fortement l’écart de performance en raisonnement et performance d’agent intégré avec les modèles fermés, tout en s’imposant comme une alternative économique.
  • Il est perçu comme un exemple de trajectoire pour une évolution durable et haute performance des LLM open source.

1 commentaires

 
GN⁺ 2025-12-02
Avis Hacker News
  • Il est impressionnant de les voir continuer à améliorer l’efficacité des coûts tout en partageant publiquement leur progression
    J’espère que ce type d’effort contribuera à freiner les monopoles de l’IA

    • Mais on ne peut pas vraiment savoir qui « gagne » en efficacité des coûts, car on ne connaît pas la structure de coûts et de profits de chaque entreprise
    • Je suis d’accord, mais je ne pense pas que leurs intentions soient univoques
    • Tant que ça ne tourne pas entièrement sur un seul GPU, personne n’est le véritable gagnant en matière d’efficacité des coûts
    • J’imagine qu’ils continueront à ouvrir ce qu’ils font tant qu’ils n’auront pas créé un modèle bien meilleur que celui de la concurrence. Mais s’ils continuent à le faire même après avoir pris l’avantage, là je serai sincèrement impressionné
    • Cela dit, considérer une entreprise soutenue par le Parti communiste chinois comme animée d’intentions pures me semble naïf. Il y a forcément d’autres objectifs derrière
  • Si les modèles open peuvent rivaliser avec les modèles commerciaux, on peut se demander comment des entreprises comme Google, Anthropic ou OpenAI pourront gagner de l’argent avec l’IA
    Si l’open source a échoué par le passé, c’est parce qu’il restait derrière les solutions fermées sur la qualité et la profondeur fonctionnelle, mais on a maintenant l’impression que les performances entrent dans une phase de stagnation
    Au final, j’ai l’impression que le vainqueur à long terme sera celui qui disposera de l’infrastructure énergétique la moins chère

    • D’après un document interne de Google, il n’y a « pas de moat » dans l’IA/les LLM. Mais même sans posséder le modèle lui-même, on peut encore générer d’importants revenus en le proposant sous forme de SaaS ou MaaS
      Comme quand Amazon propose l’API MongoDB comme service, le modèle économique revient au final à facturer l’usage de l’infrastructure
      La plupart des entreprises n’ont pas les moyens d’héberger elles-mêmes des modèles SOTA. Il suffit de voir qu’elles n’exploitent même pas leurs propres serveurs mail
      Google a créé le Transformer, OpenAI a fait décoller ChatGPT avec le RLHF, mais aujourd’hui ce sont de nouveau les résumés IA de Google qui occupent le haut des résultats de recherche
      Document associé : Google “We have no moat, and neither does OpenAI”
    • Les entreprises font confiance à OpenAI ou Anthropic. Le fait d’avoir quelqu’un vers qui se retourner en cas de problème compte aussi
    • Si l’on parvient à obtenir de l’énergie bon marché dans l’espace, Musk pourrait prendre un énorme avantage dans la course à l’IA. Il semble obsédé par l’idée de construire une usine de satellites IA sur la Lune
    • Au final, le match se joue sur une combinaison de UX, verrouillage et confiance. Plus une IA accède en profondeur aux données personnelles, plus les gens privilégient des marques familières
    • Le modèle pur, à lui seul, ne génère pas de revenus. La vraie valeur consiste à intégrer le modèle dans une plateforme déjà monétisée
  • Ce modèle aurait fortement progressé non seulement sur les benchmarks, mais aussi en efficacité d’inférence
    Lien associé : comparaison des performances par Thomas Ip

    • Je me demande pourquoi il est aussi efficace
  • Le chat template de DeepSeek-V3.2 a beaucoup changé.
    Au début, j’ai cru qu’ils avaient inventé un nouveau format, mais en regardant la syntaxe, cela semble en fait pratiquement identique au format Harmony
    Dans ce cas, il aurait été plus simple de l’indiquer dès le départ comme compatible Harmony

  • Je me demande pourquoi il n’existe presque pas de modèles dans la plage 32 à 512 Go, et pourquoi le Mac Studio M4 plafonne à 128 Go de RAM

    • Pour plaisanter, ça me rappelle le fameux « 128 Go devraient suffire ». J’espère plus de RAM sur le M5 Max
  • C’est génial de voir ce type de modèle publié en open source. Mais je me demande si même une machine à 20 000 $ équipée de quatre RTX 5090 peut l’exécuter à une vitesse suffisante

    • Sur un Mac Studio M3 Ultra de 512 Go, on obtiendrait environ 20 tokens par seconde. Vidéo de démo
    • Pour les grands modèles, la solution réaliste est de passer par le cloud avec facturation à l’heure ou au token. On peut toujours acheter un rack de H100 et l’exploiter soi-même, mais le cloud est bien plus efficace
    • Les configurations perso sont désormais peu rentables. En tenant compte des GPU, de l’électricité et du refroidissement, je pense qu’il vaut mieux acheter une RTX Pro 6000
    • Les deux fournisseurs sur OpenRouter qui proposent DeepSeek-V3.2, y compris DeepSeek, le font tourner à environ 28 tps. Lien OpenRouter
      Cela tend plutôt à confirmer l’affirmation du commentaire initial selon laquelle c’est lent pour un usage grand public
    • J’utilise aussi une machine avec 6 RTX 3090, et les modèles de 685B de paramètres sont beaucoup trop lents. Il faut rester sur des modèles de 144B ou moins pour une utilisation confortable. GLM 4.5 Air était particulièrement bon
  • Si l’on regarde le tableau 3 du papier, DS-Speciale se place en 1re ou 2e position sur presque tous les tests, mais produit plus de 50 % de tokens en plus

    • Certains problèmes de raisonnement logique exigent des chaînes de réflexion plus longues. DeepSeek, avec ses coûts plus faibles, a pu pousser cet aspect au maximum
      On peut aussi faire évoluer les performances de raisonnement avec plus de calcul en générant plusieurs réponses en parallèle puis en choisissant la meilleure
  • Après quelques heures d’utilisation, c’est un modèle très solide et compétitif. Je le trouve meilleur que GLM4.6 et aussi supérieur à Kimi K2. J’attends la v4 avec impatience

  • Le fait qu’il s’agisse d’un grand modèle frontier publié sous licence MIT est intéressant

  • Je comprends mal les critères d’évaluation de l’industrie américaine de l’IA. Les modèles chinois sont bien moins chers tout en offrant des performances presque équivalentes

    • Les modèles chinois sont surtout centrés sur le texte, tandis que les modèles américains et européens doivent aussi gérer l’image, la voix et la vidéo, ce qui augmente les coûts
      En plus, les benchmarks sont saturés, donc les écarts paraissent faibles, mais au plus haut niveau, 1 % de différence peut en réalité être très significatif
      Sur le leaderboard Metabench que j’ai créé, les modèles chinois sont bons, mais il subsiste malgré tout un écart avec le haut du classement
      En revanche, avec leur faible coût d’inférence, les modèles chinois sont très forts sur le terrain du rapport qualité-prix
    • En déploiement réel, le facteur clé reste la vitesse de l’infrastructure. Sur OpenRouter, les modèles chinois ne sont pas aussi rapides que Claude, GPT ou Gemini
      Les entreprises américaines ne vendent pas seulement le modèle, mais aussi une infrastructure mondiale à faible latence. C’est ce qui explique leur valorisation élevée
      À titre de référence, Cerebras propose un GLM 4.6 très rapide
    • Les fournisseurs tiers ne prennent pas en charge le caching. Si le caching était activé, le coût des modèles américains serait réduit d’environ moitié, ce qui les rendrait bien plus compétitifs
    • La valorisation des entreprises américaines repose davantage sur leur potentiel futur que sur leurs résultats actuels. C’est un investissement réalisé avec une compréhension limitée de la recherche chinoise
      Il y a peut-être aussi l’hypothèse implicite que DeepSeek sera interdit et que l’open source sera bloqué aux États-Unis
    • Malgré tout, si les États-Unis n’avaient pas d’abord déclenché la concurrence par FOMO (la peur de rater quelque chose), la stratégie chinoise n’aurait peut-être pas été aussi efficace
      À l’avenir, les modèles frontier pourraient se différencier sur des cas limites très spécifiques