2 points par GN⁺ 2025-08-22 | 1 commentaires | Partager sur WhatsApp
  • DeepSeek-V3.1 constitue la première étape vers la prochaine ère des agents
  • Il intègre une fonctionnalité de raisonnement hybride permettant de choisir, au sein d’un même modèle, entre deux modes : Think (basé sur le raisonnement) et Non-Think (sans raisonnement)
  • En mode DeepSeek-V3.1-Think, il est possible d’obtenir la bonne réponse en moins de temps que le modèle précédent DeepSeek-R1-0528, avec une efficacité nettement améliorée
  • Grâce au post-training, les capacités du modèle ont été fortement améliorées pour l’utilisation d’outils, la manipulation de systèmes externes et les tâches d’agent en plusieurs étapes
  • Les utilisateurs peuvent librement basculer entre les modes Think et Non-Think via le bouton « DeepThink » dans le service de chatbot DeepSeek
  • Mise à jour de l’API
    • De meilleurs résultats ont été obtenus dans les évaluations SWE (Software Engineering) et Terminal-Bench
    • Les capacités de raisonnement multi-étapes et de résolution de problèmes ont été fortement renforcées pour les recherches complexes ou les tâches en plusieurs étapes
    • L’efficacité globale du raisonnement a nettement progressé
  • Changement de tarification (application à partir du 25/9)
    • API d’entrée : 0,07 $ par 1M de tokens (cache hit) / 0,56 $ (cache miss)
    • API de sortie : 1,68 $ par 1M de tokens

1 commentaires

 
GN⁺ 2025-08-22
Avis Hacker News
  • Un modèle GGUF a été préparé pour une exécution en local ; pour obtenir de bonnes performances avec une approche dynamique en 2 bits (MoE en 2 bits, le reste en 6-8 bits), il faut environ 250 Go en combinant RAM et VRAM. Le déchargement sur SSD est aussi possible, mais c’est lent ; pour la méthode d’exécution, les paramètres optimaux et d’autres détails, voir la documentation officielle
    • En revanche, il est surprenant qu’unsloth, tout en étant une bibliothèque Python, essaie d’exécuter apt-get avec sudo ; sur mon NixOS, cela échoue, ce qui le rend difficile à utiliser
    • Je serais curieux de voir des résultats de benchmark sur la perte de performances de cette compression dynamique en 2 bits par rapport au modèle d’origine
  • À titre de référence, voici le leaderboard terminal-bench : l’écart avec GPT-5, Claude 4 et GLM-4.5 est important, mais les performances restent plutôt correctes face aux autres modèles open weight. Les benchmarks ne disent pas tout, donc il faudra voir avec le temps ce que donnent les résultats en pratique
    • Je trouve que ce benchmark mélange agent tool et modèle, ce qui rend les résultats peu cohérents ; il faudrait fixer uniquement l’agent tool et comparer seulement les modèles pour que cela ait du sens. Ce type de benchmark a tendance à être peu fiable, et il vaut mieux utiliser directement le modèle sur ses propres problèmes
    • D’après mon ressenti, la qualité des résultats était plutôt bonne
    • Des entreprises comme Anthropic et OpenAI ont elles aussi tendance à développer des agents personnalisés pour certains benchmarks
    • À noter que DeepSeek R1 est déjà un ancien modèle remplacé ; mise à jour prise en compte
    • Si le prix ne devient pas trop élevé, même un modèle SOTA devrait rester intéressant sans être trop lourd à assumer
  • C’est dommage que l’ancienne remise hors saison ait disparu ; à l’époque, on pouvait générer énormément de tokens pour presque rien. Cela dit, les prix restent très compétitifs, donc ce n’est pas non plus un gros sujet de plainte
  • Selon les résultats de benchmark de artificialanalysis.ai, l’intelligence est à peu près comparable à gpt-oss-120B, mais le modèle est environ 10 fois plus lent et 3 fois plus cher
    • La source proposée n’affiche actuellement qu’un seul provider ; il serait plus précis de comparer gpt-oss-120B et deepseek-chat-v3.1 chez le même fournisseur. Il faut aussi tenir compte du fait que gpt-oss-120B bénéficie déjà de davantage de fournisseurs déployés et optimisés, ce qui l’avantage
  • DeepSeek V3.1 est un modèle de raisonnement hybride et il est fort en appel d’outils (Task Tool Calling), mais il utilise souvent de façon aléatoire l’ancien format d’outil au lieu du format JSON standard ; le jeu de données d’entraînement de V3 contient probablement beaucoup de ce type d’exemples
    • Je me demande si vous avez essayé les function calls stricts (bêta) ; il y a un guide à ce sujet
    • Je me demande de quel format il s’agit exactement ; j’avais compris que le JSON était adapté pour forcer une sortie structurée avec un LLM, donc je me demande pourquoi il s’en écarte volontairement
  • Il semble en retrait par rapport à Qwen3 235B 2507 Reasoning (mon modèle préféré) ou à gpt-oss-120B ; voir le benchmark, et le prix ici
    • Je pense que la famille Qwen3 2507 est actuellement ce qu’il y a de mieux en local ; avec un GPU et environ 32 Go de RAM, le modèle A3B convient très bien au pair programming
  • Parmi les modèles que j’ai utilisés ces 6 derniers mois, DeepSeek V3.1 est celui qui a le plus halluciné
    • Je me demande quelle context length a été utilisée
    • On demande s’il est possible que de mauvaises données aient été prises cette fois-ci
  • Il se situe à peu près entre V3 et Qwen3 Coder ; comparaison ici
    • On demande si le modèle gpt-5 Mini est proposé gratuitement
  • Il semble compétitif parmi les modèles open weight, mais l’écart reste important face à GPT-5 ou Claude
  • Je n’ai pas encore vu de preuve qu’il soit meilleur que GLM-4.5 sur les tâches de code agentiques
    • On lui redemande si c’est tout, ou s’il existe peut-être d’autres éléments qu’il n’a pas vus