2 points par GN⁺ 2025-09-30 | 1 commentaires | Partager sur WhatsApp
  • V3.1-Terminus sert de base à ce modèle expérimental, qui introduit DeepSeek Sparse Attention (un mécanisme d’attention clairsemée) afin d’améliorer l’efficacité du traitement des longs contextes
  • Sparse Attention prend en charge des opérations clairsemées à granularité fine, ce qui améliore fortement l’efficacité en entraînement et en inférence tout en maintenant une qualité de sortie globalement comparable à l’existant
  • Sur les principaux benchmarks, il affiche des résultats similaires à V3.1-Terminus, voire légèrement meilleurs sur certains points ; les performances sont notamment confirmées en codage, résolution de problèmes mathématiques et usage d’outils de type agent
  • Pour la recherche et l’usage pratique, des kernels associés comme TileLang, DeepGEMM et FlashMLA sont publiés en même temps, avec à la fois des versions lisibles pour la conception et des kernels CUDA haute performance
  • Il peut être exécuté immédiatement dans divers environnements comme HuggingFace, SGLang et vLLM, et pourrait servir de base à la recherche comme à l’adoption en production de la prochaine génération d’architectures Transformer efficaces

Présentation

  • DeepSeek-V3.2-Exp est un modèle d’étape intermédiaire vers une architecture de nouvelle génération, développé à partir de V3.1-Terminus
  • Sa caractéristique centrale est l’application de DeepSeek Sparse Attention (DSA), qui permet une inférence et un apprentissage efficaces sur de longs contextes
  • L’objectif est d’optimiser l’efficacité de calcul et le traitement de séquences textuelles étendues

Principaux résultats

  • DSA concrétise pour la première fois une attention clairsemée sophistiquée, en améliorant l’efficacité tout en conservant la qualité des sorties du modèle
  • La configuration d’entraînement est alignée sur celle de V3.1-Terminus afin d’assurer la fiabilité de la comparaison des performances
  • Résultats sur des benchmarks publics :
    • Reasoning : MMLU-Pro(85.0 vs 85.0), AIME 2025(88.4 vs 89.3), Codeforces(2046 vs 2121)
    • Agentic Tool Use : BrowseComp(38.5 vs 40.1), SimpleQA(96.8 vs 97.1)
    • Globalement, les résultats sont équivalents ou montrent de légères améliorations

Kernels open source

  • TileLang : fournit des exemples de kernels lisibles pour la recherche
  • DeepGEMM : publication de kernels CUDA haute performance et de kernels de logits d’indexation
  • FlashMLA : fournit des kernels de sparse attention

Méthode d’exécution

  • HuggingFace : après conversion du modèle, exécution possible d’un chat interactif avec torchrun
  • SGLang : image Docker fournie (pour H200, MI350 et les NPU)
  • vLLM : support Day-0, avec documentation de recettes officielles

Licence

  • Publication sous licence MIT

1 commentaires

 
GN⁺ 2025-09-30
Avis Hacker News
  • Je remarque qu’un effet de second ordre dont peu de gens parlent est le prix. Avec la montée en échelle rapide des modèles, voir aussi les prix baisser est impressionnant. C’est un facteur aussi important que la diffusion de l’IA et que l’intelligence des modèles. À ma connaissance, il n’existe pas de loi fondamentale qui empêcherait cette baisse des prix. Pour l’instant, à chaque génération de matériel, on devient bien plus rapide et moins cher, un peu comme avec la loi de Moore (ou le cycle de développement des puces IA/Nvidia). Donc dans un an, on pourra peut-être utiliser ChatGPT-5 pour la moitié du prix actuel. (Bien sûr, les modèles haut de gamme restent plus chers, mais je parle ici du coût par token.)

    • C’est une forte sous-estimation de l’ampleur de la baisse des prix. Par exemple, selon une étude d’Andreessen Horowitz, le coût de l’inférence a diminué d’un facteur 10 par an pendant les deux années qui ont suivi l’arrivée de GPT-3.5 référence. Donc même dans un scénario de ralentissement de la croissance, une baisse de 1�000x d’ici cinq ans me semble possible. La baisse actuelle des prix n’est pas directement liée à la loi de Moore, mais à diverses innovations comme l’optimisation des modèles, la chaîne d’approvisionnement en mémoire à haute bande passante et les investissements dans les infrastructures électriques.
  • Je me réjouis de voir les modèles open source chinois continuer à progresser tout en devenant moins chers. C’était déjà un modèle bon marché, et le prix de l’API a encore été réduit de 50 %, à Input $0.28/M, (avec cache hit $0.028/M), Output $0.42/M.

    • Puisqu’il y a eu une baisse de prix, je me demande quel était l’ancien tarif. J’avais plutôt l’impression qu’il y avait récemment eu une hausse.

    • La baisse de prix est une bonne chose, mais je me demande combien de temps ce niveau sera maintenu. Avant, c’était très bon marché, puis il y a eu une forte hausse, et maintenant le prix redescend.

  • Lien de présentation du modèle Deepseek v3.2-exp

    • Curieusement, ce modèle est indiqué comme « entraîné avec les données » (« ce fournisseur peut utiliser les prompts et les sorties pour l’entraînement de nouveaux modèles. Ce fournisseur est actuellement désactivé, mais peut être réactivé en cas de changement de politique de données »). En général, les modèles payants utilisent rarement les données d’entrée pour l’entraînement. Je me demande donc si OpenRouter l’a mal étiqueté, ou si Deepseek utilise réellement les données des utilisateurs pour entraîner ses modèles.

    • Je me demande si Open Router est vraiment open source. Le dépôt « principal » est archivé, et il n’y a que de petits projets autour. J’ai l’impression que seule la partie client API est réellement open source, et que le service central de routage est fermé.

  • Si j’ai bien compris, ce modèle a la particularité d’être entraîné à imiter la distribution d’attention complète tout en ne conservant que les k tokens les plus importants (ici k=2048). Ainsi, même si la fenêtre de contexte s’agrandit, la complexité de calcul pour [query, key] n’augmente pas linéairement et reste constante. (En regardant le graphe réel, l’indexeur semble quand même parcourir grossièrement tout le contexte une fois, donc on reste en O(L).)

  • Le gros problème de ces modèles « bon marché », c’est que si le fournisseur ne prend pas en charge le caching, le coût réel peut au contraire être plus élevé en production, surtout dans les workflows d’agents. Le coût des tokens d’entrée/sortie a peu d’importance, et le coût du cache hit (réutilisation) finit par représenter la majorité des tokens. Dans ce cas, autant utiliser GPT-5, qui peut revenir moins cher, ou offrir un modèle plus puissant pour un coût similaire.

    • DeepSeek prend en charge le cache, avec un coût en cache hit égal à un dixième de celui d’un cache miss. Concrètement : cache hit $0.028/M, cache miss $0.28/M, sortie $0.42/M référence

    • J’étais persuadé que ce modèle prenait déjà en charge le caching. La page tarifaire indique également que les tokens d’entrée en cache hit sont à $0.028.

    • Tu présentes ça comme un problème grave tout en ajoutant une condition préalable (IF). L’API DeepSeek prend officiellement en charge le caching. Merci de ne pas inventer un problème là où il n’y en a pas guide du cache

  • Il est impressionnant de voir que les benchmarks restent quasiment inchangés alors que le coût a chuté de manière spectaculaire.

  • Ce qui est intéressant, c’est que le rythme d’amélioration des modèles reste si rapide que le matériel dédié à un modèle spécifique ne s’impose pas vraiment, et que les principaux gains d’échelle continuent de venir de plateformes généralistes.

    • Cela dit, il faudrait aussi mentionner les puces optimisées au niveau de l’architecture comme les Google TPU, Groq et Cerebras. Ce ne sont pas des puces totalement dédiées, mais ce sont des exemples d’optimisation sur des architectures plus générales.
  • Deep Sparse Attention semble pouvoir apporter une aide concrète au raisonnement structuré et long, comme dans le code.

  • Je trouve ça vraiment impressionnant. Je me demande comment cela se comporte sur des données du monde réel, où des différences subtiles comptent réellement. Et je suis très curieux de savoir si des tests ont été faits au-delà d’une fenêtre de contexte de 128K.

  • C’est cool de voir un cas d’application concret du sparse attention en conditions réelles.