7 points par GN⁺ 2026-05-03 | 2 commentaires | Partager sur WhatsApp
  • DeepSeek a dévoilé les premiers modèles de la série V4, DeepSeek-V4-Pro et DeepSeek-V4-Flash en preview. Tous deux sont des modèles Mixture of Experts prenant en charge un contexte de 1 million de tokens et proposés sous licence MIT
  • DeepSeek-V4-Pro est un modèle de 1.6T de paramètres au total, avec 49B de paramètres actifs, ce qui en fait le plus grand modèle open weights à ce jour, devant Kimi K2.6, GLM-5.1 et DeepSeek V3.2
  • Le principal facteur différenciant de DeepSeek V4 est son prix : Flash coûte $0.14 en entrée et $0.28 en sortie par million de tokens, tandis que Pro est à $1.74 en entrée et $3.48 en sortie, soit moins que les petits et grands modèles concurrents
  • Ce faible prix est lié à une meilleure efficacité sur les longs contextes : avec un contexte de 1 million de tokens, Pro descend à 27% des FLOPs par token et 10% du cache KV de DeepSeek-V3.2, tandis que Flash tombe à 10% des FLOPs et 7% du cache KV
  • D’après ses propres benchmarks, DeepSeek-V4-Pro peut rivaliser avec les modèles frontier, mais reste légèrement en dessous de GPT-5.4 et Gemini-3.1-Pro, avec une trajectoire de développement en retard d’environ 3 à 6 mois sur les modèles frontier les plus avancés

Présentation des modèles et spécifications de base

  • Après V3.2 et V3.2 Speciale en décembre 2025, DeepSeek a présenté les deux premiers modèles preview de la série V4 : DeepSeek-V4-Pro et DeepSeek-V4-Flash
  • Les deux modèles sont des Mixture of Experts avec un contexte de 1 million de tokens et utilisent la licence MIT standard
  • DeepSeek-V4-Pro dispose de 1.6T de paramètres au total et de 49B de paramètres actifs, tandis que DeepSeek-V4-Flash compte 284B de paramètres au total et 13B de paramètres actifs
  • DeepSeek-V4-Pro dépasse les 1.1T de Kimi K2.6, les 754B de GLM-5.1 et les 685B de DeepSeek V3.2, ce qui semble en faire le nouveau plus grand modèle open weights
  • Sur Hugging Face, la taille du modèle est de 865GB pour Pro et 160GB pour Flash. Une version Flash légèrement quantifiée pourrait fonctionner sur un MacBook Pro M5 de 128GB
  • Le modèle Pro pourrait lui aussi tourner sur la même machine s’il est possible de ne streamer depuis le disque que les experts actifs nécessaires
  • Test rapide via OpenRouter

Prix, efficacité et positionnement en performances

  • L’élément le plus marquant de DeepSeek V4 est son prix. D’après la page de tarification de DeepSeek, Flash coûte $0.14 par million de tokens en entrée et $0.28 par million de tokens en sortie
  • Pro est facturé $1.74 par million de tokens en entrée et $3.48 par million de tokens en sortie
  • Dans le tableau comparatif, DeepSeek V4 Flash est moins cher que GPT-5.4 Nano à $0.20 en entrée et $1.25 en sortie, ainsi que Gemini 3.1 Flash-Lite à $0.25 en entrée et $1.50 en sortie, ce qui en fait le moins cher des petits modèles
  • DeepSeek V4 Pro est moins cher que Gemini 3.1 Pro à $2 en entrée et $12 en sortie, GPT-5.4 à $2.50 et $15, Claude Sonnet 4.6 à $3 et $15, Claude Opus 4.7 à $5 et $25, et GPT-5.5 à $5 et $30, ce qui en fait le moins cher des grands modèles frontier
  • L’optimisation soutient ce prix bas

    • Le papier DeepSeek explique que cette release s’est fortement concentrée sur l’efficacité des prompts à long contexte
    • Avec un contexte de 1 million de tokens, DeepSeek-V4-Pro tombe à 27% des FLOPs par token et à 10% de la taille du cache KV de DeepSeek-V3.2
    • Dans les mêmes conditions, DeepSeek-V4-Flash descend à 10% des FLOPs par token et à 7% de la taille du cache KV par rapport à DeepSeek-V3.2
  • Proche de la frontière dans les benchmarks, mais pas au sommet

    • Les benchmarks auto-reportés de DeepSeek montrent que le modèle Pro peut rivaliser avec d’autres modèles frontier
    • Selon le papier, DeepSeek-V4-Pro-Max avec extension des tokens de raisonnement dépasse GPT-5.2 et Gemini-3.0-Pro sur les benchmarks standards de raisonnement
    • Il reste toutefois légèrement en dessous de GPT-5.4 et de Gemini-3.1-Pro, avec une trajectoire de développement en retard d’environ 3 à 6 mois sur les modèles frontier les plus avancés
    • Une version quantifiée par Unsloth est attendue sur huggingface.co/unsloth/models, et la question reste de savoir à quel point le modèle Flash fonctionnera bien en local

2 commentaires

 
emptybynature 2026-05-09

Pour commencer, c’est vraiment appréciable que ce soit si peu cher, mais le problème c’est que c’est beaucoup trop lent… ce qui prendrait 5 minutes avec codex, celui-ci y réfléchit pendant 20 minutes. Du coup, je l’utilise plutôt pour la revue de code que pour l’implémentation, et comme il s’en sort assez bien en revue de code, j’en suis plutôt satisfait.

 
GN⁺ 2026-05-03
Avis Hacker News
  • Pour moi, le plus gros point de différenciation, c’est que DeepSeek fait simplement ce qu’on lui demande. J’ai récemment essayé à la fois GPT et Claude pour de la rétro-ingénierie, et les deux ont refusé, au point que j’ai même reçu un avertissement sur mon compte OpenAI

    • Malheureusement, le niveau d’hallucination est absurdement élevé, ce qui met en évidence le pire aspect des grands modèles de langage
      Deepseek v4 pro 94%
      Deepseek v4 flash - 96%
      https://artificialanalysis.ai/evaluations/omniscience?models...
    • D’après mon expérience, IDA Pro et GLM 5.1 allaient très bien ensemble, DeepSeek v4 pro arrivait juste derrière, et Kimi refusait simplement. Avec Claude, il faut l’amener dans une sorte de mode héros/sauveur, puis l’orienter progressivement vers du red teaming pour faire de la rétro-ingénierie, mais il se fait piéger facilement
    • Dans mon entreprise, on a un compte Cursor enterprise, donc je peux tester tous les modèles grand public. Naturellement, alors que j’enquêtais sur un problème dans notre propre code source avec Composer 2, j’ai demandé d’activer un flag de debug qui contourne la vérification de licence, et il a refusé
      Ça m’a vraiment agacé, on aurait dit un vieux mème de Patrick dans SpongeBob. Je ne comprends pas pourquoi on veut transformer les modèles en agents d’application de la loi. Ce qui est illégal reste illégal, et il existe déjà des spécialistes pour traiter les crimes. Google n’a pas besoin de se poser en arbitre de la vérité et de la justice. Les forces de l’ordre sont déjà difficiles à mettre face à leurs responsabilités, mais au moins elles travaillent pour nous
    • La partie « j’ai même reçu un avertissement sur mon compte OpenAI » est complètement étrange et dystopique, parce qu’un logiciel menace l’utilisateur en invoquant ses résultats
      Collègues développeurs, quel genre de monde sommes-nous en train de fabriquer ? C’est de la folie. Imaginez un marteau qui dirait « ne m’utilise pas sur des vis, seulement sur des clous. Recommence et je m’autodétruis ». J’aimerais vraiment qu’on arrête de produire ce genre de logiciel
    • Le fait d’« avoir même reçu un avertissement sur son compte OpenAI » me paraît assez souvent inquiétant. Pour une personne ordinaire sans audience, il n’y a pratiquement aucune procédure de recours réelle, et elle risque d’être exclue d’outils de base
      Imaginez qu’OpenAI rachète 20 entreprises et qu’on vous empêche ensuite d’utiliser Figma, Next, etc., parce qu’un jour vous avez franchi une limite floue. Ce n’est pas seulement OpenAI, c’est tout l’écosystème qui est devenu trop difficile à lire
      J’ai demandé à Gemini une citation de Catch-22, et il s’est interrompu plusieurs fois en plein streaming pour dire qu’il ne pouvait pas répondre, alors qu’il n’y avait rien de violent ou sexuel dedans. Le livre en contient, bien sûr, mais ça donne quand même l’impression qu’un compte workspace entier pourrait être pénalisé pour ça
      En théorie, je sais que l’avenir devrait être local, mais si on pense au coût réel et à la consommation électrique dans les prochaines années, je ne sais pas à quel point ce sera réaliste pour la plupart des gens. Si on est dans cet écosystème, les processeurs M* font peut-être exception
  • DeepSeek v4 Pro m’a donné une impression de Claude Opus 4.6 en termes de personnalité, et le coût était impressionnant
    Sur une base de code TypeScript assez volumineuse, je lui ai demandé de se concentrer sur un seul endpoint, d’examiner en profondeur l’API, les DTO, les services et les modèles de base de données à chaque couche, de bien comprendre tous les types liés, et d’éviter l’apparition de types temporaires
    Il m’a fait un résumé très court mais essentiel des types introduits, de ceux qui étaient retournés, etc., puis je lui ai demandé de simplifier l’ensemble
    Les deux prompts ont probablement parcouru beaucoup de fichiers, mais le coût total sur la version Pro a été de 0,09 $. Avec Claude Opus, même avant la hausse des prix, j’aurais facilement brûlé 9 à 13 $ rien qu’avec ces deux prompts, pour un gain probablement limité
    Pour info, je n’ai pas utilisé OpenRouter mais directement l’API DeepSeek, parce qu’OpenRouter était lui-même limité en débit côté DeepSeek

    • J’ai exactement la même expérience. Pour des tâches du style « parcours tout ce module et aligne-toi méticuleusement sur mon guide de style préféré », ça me faisait mal de dépenser plusieurs dollars sur des modèles de pointe. J’aime pouvoir balancer DeepSeek Flash sur du travail idiot, superflu ou très spéculatif sans m’inquiéter du coût
    • Une bonne partie de l’inefficacité vient du fait que le modèle tâtonne au hasard partout et lance des grep en continu, et je pense que c’est un problème de harnais
      Du coup, j’ai créé un MCP basé sur Prolog qui parse le code en graphe avec tree-sitter, afin que le modèle puisse poser des questions comme « quelles sont toutes les fonctions reliées à celle-ci ? ». Si on veut voir ce que fait un endpoint donné, on peut suivre tout le sous-graphe d’appels de façon triviale et prévisible
      https://github.com/yogthos/chiasmus
    • Quand tu dis « j’aurais brûlé 9 à 13 $ pour peu de gain », tu veux dire que le gain aurait été faible par rapport à DeepSeek v4 Pro à 9 centimes, ou que dans les deux cas il n’y aurait pas eu grand-chose à en tirer ?
    • Même en tenant compte de la facturation avec 75 % de réduction, ça reste bien moins cher
    • Je suis curieux de savoir comment tu l’as utilisé. Tu es passé par OpenRouter ou directement par l’API du fournisseur ?
  • À ce sujet, il existe une démo en direct qui fait tourner DeepSeek v4 Flash sur un MacBook 128 Go. La vidéo est en italien avec sous-titres anglais
    https://www.youtube.com/watch?v=todMmp6AGCE

  • Je l’ai branché à vscode copilot pour utiliser à la fois flash et pro. Pour de petites preuves de concept, flash suffisait, c’était assez rapide et vraiment peu cher
    Il s’est figé quelques fois, peut-être à cause de problèmes de latence, mais les résultats restaient bons. J’ai utilisé pro pour les tâches lourdes et la planification, et il s’en est très bien sorti
    J’ai payé environ 10 centimes pour une petite preuve de concept, et ça fonctionnait exactement comme demandé. Pour moi, c’est une vraie alternative après la résiliation de GitHub Copilot à la fin du mois

  • Le coût est plus bas que celui des modèles de pointe, mais il y a deux facteurs qui font que DS4 Pro et K2.6 ne sont pas aussi bon marché qu’ils en ont l’air
    DS4 Pro bénéficie d’une réduction sur l’API officielle, ce qui est souvent ignoré ou mélangé dans les discussions. Simon a utilisé le prix catalogue dans sa comparaison, donc ce n’est pas un problème ici
    L’autre problème, c’est que DS4 Pro et K2.6 consomment souvent bien plus de tokens de raisonnement que les modèles de pointe. Dans mes tests, sur certains cas pathologiques, ils en consommaient tellement que le coût de la requête pouvait rattraper celui d’un modèle de pointe. Pour être juste, j’utilise DS et Kimi chez des fournisseurs tiers, donc ça peut venir de leur configuration
    Mais si on regarde les pages modèles d’Artificial Analysis, sur leur benchmark d’intelligence, DSv4 Pro a utilisé 190M tokens, K2.6 170M, alors que GPT 5.5 high n’en a utilisé que 45M
    Pour « Intelligence vs. Cost to Run Artificial Analysis Intelligence Index », je recommande de consulter « Intelligence vs Cost » dans l’interface. Les modèles open weight restent moins chers, mais pas autant que ce que le prix au token pourrait laisser penser
    [0] https://artificialanalysis.ai/models/deepseek-v4-pro
    [1] https://artificialanalysis.ai/models/kimi-k2-6
    [2] https://artificialanalysis.ai/models/gpt-5-5-high

    • C’est complètement faux, DS4 est vraiment peu cher. Je te conseille de lire d’abord le papier de release
      https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main...
      Ils ont introduit HCA et mCH, des méthodes assez nouvelles qui améliorent l’efficacité du long contexte et de l’attention. Par rapport à la v3.2, l’inférence ne demande que 27 % des FLOP, et le cache KV seulement 10 %. Ça veut dire qu’à ressources de calcul égales, on peut servir plus de 3 fois plus, avec seulement 30 % du cache KV précédent
      Et en plus, cette release est une PREVIEW. DeepSeek est un vrai labo de recherche ouvert : à chaque release, ils produisent beaucoup de choses, mais surtout ils publient et partagent. Je l’exécute en local
      Pour donner une idée de à quel point c’est « peu cher », avec la v3.2, en contexte 256k, la mémoire GPU débordait dans la mémoire système, et malgré ça j’étais satisfait d’environ 7 000 tokens/s. Cette fois, je peux faire tenir tout le contexte d’un million de tokens à 100 % dans la mémoire GPU, avec une vitesse plus de deux fois supérieure et de meilleurs résultats
      C’est vraiment peu cher. Moonshot a clairement indiqué qu’ils manquaient de GPU, et c’est pour ça. S’ils avaient la capacité GPU des États-Unis et qu’ils subventionnaient le modèle comme ici, ils l’auraient distribué gratuitement
    • Ça peut arriver, mais ce n’a pas été mon expérience. J’ai passé toute une journée sur un refactoring assez important, avec plusieurs allers-retours, des modifications sur des milliers de lignes de code, de la revue, des recherches, et même du travail parallèle de plusieurs sous-agents, pour un coût total de 0,95 $
      La dernière fois que j’avais tenté ça avec Opus 4.6, il avait englouti le budget de 10 $ que j’avais fixé avant même de revenir du premier prompt
      Même avec un tarif très fortement remisé, on serait resté sur un montant à un chiffre pour une solution complète, alors qu’Opus aurait coûté un montant à deux chiffres pour n’obtenir exactement rien
    • D’après Artificial Analysis, Grok 4.3 est plus rapide que DS4, plus intelligent, moins cher, et consomme moins de tokens. Alors pourquoi personne ne parle de Grok ?
      1. https://artificialanalysis.ai/models/grok-4-3
  • La V4 a clairement franchi un cap par rapport à la V3.2 sur notre benchmark multilingue
    Cela dit, deux réserves. En passant par OpenRouter pour l’inférence, le débit (TPS) était très lent et souvent instable. Même à l’instant, sur tous les fournisseurs disponibles, je vois du 10 à 30 TPS, ce qui n’est pas élevé pour un modèle qui réfléchit autant que DeepSeek
    L’API officielle de DeepSeek ne garantit pas la confidentialité des données, même pour les utilisateurs payants
    Via Azure AI Foundry, ces deux problèmes ne se posent peut-être pas. Pour le second, à ma connaissance, c’est le cas, mais je n’ai pas encore testé
    Quoi qu’il en soit, c’est une bonne nouvelle de voir arriver davantage de modèles open weight capables de rivaliser jusqu’à un certain point avec les meilleurs modèles actuels

  • L’API officielle de DeepSeek, utilisée sur de longues sessions dans la même base de code, atteint plus de 99 % de taux de hit du cache, donc c’est bien moins cher que les modèles de pointe. Il y a un exemple de session à 200M tokens dans claude code

    • Question peut-être idiote, mais pour garantir le bon préfixe correspondant au cache dans une nouvelle session, il faut relire les fichiers dans le même ordre ?
  • Je suis surpris que les gens, surtout quand ils utilisent directement les API des développeurs de modèles, ne se soucient absolument pas du fait que ces modèles s’entraînent publiquement sur leurs données
    Quand il se passe quelque chose comme « GitHub inscrit désormais automatiquement le code de tout le monde à l’entraînement des modèles », il y a à juste titre des centaines de commentaires outrés. Mais dès qu’on parle d’utiliser des modèles chinois via OpenRouter, ce point disparaît presque complètement. On pourrait dire « ce ne sont pas les mêmes personnes », mais l’écart est tellement marqué qu’il est difficile d’y voir l’explication complète

    • L’avantage des modèles open weight, c’est qu’on peut librement utiliser des fournisseurs alternatifs qui n’envoient pas les données au créateur original du modèle. Par exemple, sur OpenRouter, je vois 6 fournisseurs alternatifs pour DeepSeek V4 Pro
    • Personnellement, je suis d’accord pour les aider tant qu’ils publient le modèle au lieu de le garder fermé. Et je ne crois pas non plus aux réglages d’un fournisseur qui prétend ne pas s’en servir pour l’entraînement
    • La plupart des modèles open weight peuvent être utilisés via des fournisseurs qui garantissent zéro rétention des données et aucun entraînement. Il suffit de regarder OpenRouter et OpenCode Go/Zen
      C’est l’un des grands avantages des open weight. Ni la Chine ni les États-Unis ne récupèrent mes données
    • Parce qu’ils distribuent ça gratuitement et proposent aussi une API à un prix très correct. Ce n’est pas difficile à comprendre. Ça donne un peu l’impression de Robin des Bois qui vole nos impôts de données pour nous les rendre
    • Apprendre sur mon code open source ne me gêne pas. Mon code n’est pas terrible de toute façon, mais ce n’est pas le sujet, et ils fournissent le service gratuitement. En revanche, si j’ai payé un tarif enterprise et qu’ils l’utilisent quand même pour l’entraînement, là ça m’énerverait vraiment. Je pense que la majorité des programmeurs raisonne comme ça
  • Même une fois le cirque des subventions terminé et tout le monde passé à une facturation purement à l’usage, ça laisse espérer que cela ne deviendra pas totalement inaccessible aux gens ordinaires qui n’ont pas un budget de 200 $ par mois

    • Il y a deux raisons pour lesquelles je suis optimiste sur le fait qu’on n’aura pas soudainement une énorme douche froide sur le rapport qualité-prix par rapport à aujourd’hui
      La première, c’est qu’on continue de découvrir comment caser davantage d’intelligence dans des modèles plus petits, donc à spécifications matérielles égales, on obtient avec le temps plus de capacité par modèle
      La seconde, c’est que le matériel continue de s’améliorer et que l’offre rattrape la demande, donc pour 1 dollar on obtient au fil du temps de meilleures spécifications matérielles
      J’espère qu’un jour on regardera le modèle actuel « accéder à l’IA via l’API d’un fournisseur » comme on regarde aujourd’hui l’époque où « tout le monde se connectait au mainframe de l’entreprise »
    • Quand la poussière retombera, je ne serais pas surpris que l’usage conversationnel personnel devienne impossible à moins de 200 $. Même quand j’essaie de modéliser le coût de service de ces systèmes, ça colle mal avec les rapports publics. Et ça vaut même pour les scénarios les plus pessimistes
  • J’ai utilisé v4 pro ces derniers jours, et en termes de qualité, ça me semble globalement comparable à OpenAI 5.4 ou Opus 4.6. Je n’ai pas essayé 4.7
    Pour être clair, je ne fais pas de travail de pointe. Je l’ai surtout utilisé pour du développement frontend, domaine dans lequel je ne suis pas très bon, et j’avais juste besoin de prototypes plausibles
    Pour mes besoins, c’est un modèle tout à fait correct et à un prix raisonnable. Cela dit, j’attends vraiment qu’un modèle ouvert suffisamment petit pour tourner en local arrive. Je n’aime pas dépendre de la machine de quelqu’un d’autre, ni voir toutes mes données partir au passage

    • Si tu utilises Tinfoil pour l’inférence, tu peux obtenir une confidentialité proche d’une exécution locale tout en utilisant le modèle dans le cloud : https://tinfoil.sh/inference
      Pour info, j’en suis le cofondateur. L’idée est de faire tourner le modèle dans une enclave sécurisée, puis de vérifier que le code open source exécuté dans l’enclave correspond bien à l’attestation d’exécution. On utilise NVIDIA confidential computing
      La documentation explique le processus de vérification : https://docs.tinfoil.sh/verification/verification-in-tinfoil
    • Merci d’avoir partagé ton retour d’expérience, j’envisage de l’essayer moi aussi. Quel fournisseur utilises-tu pour l’inférence ? Opencode ou l’API DeepSeek ?