DeepSeek V4 – presque au niveau de la frontière, pour un prix bien plus bas
(simonwillison.net)- DeepSeek a dévoilé les premiers modèles de la série V4, DeepSeek-V4-Pro et DeepSeek-V4-Flash en preview. Tous deux sont des modèles Mixture of Experts prenant en charge un contexte de 1 million de tokens et proposés sous licence MIT
- DeepSeek-V4-Pro est un modèle de 1.6T de paramètres au total, avec 49B de paramètres actifs, ce qui en fait le plus grand modèle open weights à ce jour, devant Kimi K2.6, GLM-5.1 et DeepSeek V3.2
- Le principal facteur différenciant de DeepSeek V4 est son prix : Flash coûte $0.14 en entrée et $0.28 en sortie par million de tokens, tandis que Pro est à $1.74 en entrée et $3.48 en sortie, soit moins que les petits et grands modèles concurrents
- Ce faible prix est lié à une meilleure efficacité sur les longs contextes : avec un contexte de 1 million de tokens, Pro descend à 27% des FLOPs par token et 10% du cache KV de DeepSeek-V3.2, tandis que Flash tombe à 10% des FLOPs et 7% du cache KV
- D’après ses propres benchmarks, DeepSeek-V4-Pro peut rivaliser avec les modèles frontier, mais reste légèrement en dessous de GPT-5.4 et Gemini-3.1-Pro, avec une trajectoire de développement en retard d’environ 3 à 6 mois sur les modèles frontier les plus avancés
Présentation des modèles et spécifications de base
- Après V3.2 et V3.2 Speciale en décembre 2025, DeepSeek a présenté les deux premiers modèles preview de la série V4 : DeepSeek-V4-Pro et DeepSeek-V4-Flash
- Les deux modèles sont des Mixture of Experts avec un contexte de 1 million de tokens et utilisent la licence MIT standard
- DeepSeek-V4-Pro dispose de 1.6T de paramètres au total et de 49B de paramètres actifs, tandis que DeepSeek-V4-Flash compte 284B de paramètres au total et 13B de paramètres actifs
- DeepSeek-V4-Pro dépasse les 1.1T de Kimi K2.6, les 754B de GLM-5.1 et les 685B de DeepSeek V3.2, ce qui semble en faire le nouveau plus grand modèle open weights
- Sur Hugging Face, la taille du modèle est de 865GB pour Pro et 160GB pour Flash. Une version Flash légèrement quantifiée pourrait fonctionner sur un MacBook Pro M5 de 128GB
- Le modèle Pro pourrait lui aussi tourner sur la même machine s’il est possible de ne streamer depuis le disque que les experts actifs nécessaires
-
Test rapide via OpenRouter
- Les modèles ont été appelés via OpenRouter et llm-openrouter avec la commande suivante
-
llm install llm-openrouter llm openrouter refresh llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle' - Les résultats générés ont été publiés ici : SVG du pélican de DeepSeek-V4-Flash et SVG du pélican de DeepSeek-V4-Pro
- À titre de comparaison, les résultats du même prompt ont aussi été montrés pour DeepSeek V3.2 de décembre 2025, V3.1 d’août 2025 et V3-0324 de mars 2025
Prix, efficacité et positionnement en performances
- L’élément le plus marquant de DeepSeek V4 est son prix. D’après la page de tarification de DeepSeek, Flash coûte $0.14 par million de tokens en entrée et $0.28 par million de tokens en sortie
- Pro est facturé $1.74 par million de tokens en entrée et $3.48 par million de tokens en sortie
- Dans le tableau comparatif, DeepSeek V4 Flash est moins cher que GPT-5.4 Nano à $0.20 en entrée et $1.25 en sortie, ainsi que Gemini 3.1 Flash-Lite à $0.25 en entrée et $1.50 en sortie, ce qui en fait le moins cher des petits modèles
- DeepSeek V4 Pro est moins cher que Gemini 3.1 Pro à $2 en entrée et $12 en sortie, GPT-5.4 à $2.50 et $15, Claude Sonnet 4.6 à $3 et $15, Claude Opus 4.7 à $5 et $25, et GPT-5.5 à $5 et $30, ce qui en fait le moins cher des grands modèles frontier
-
L’optimisation soutient ce prix bas
- Le papier DeepSeek explique que cette release s’est fortement concentrée sur l’efficacité des prompts à long contexte
- Avec un contexte de 1 million de tokens, DeepSeek-V4-Pro tombe à 27% des FLOPs par token et à 10% de la taille du cache KV de DeepSeek-V3.2
- Dans les mêmes conditions, DeepSeek-V4-Flash descend à 10% des FLOPs par token et à 7% de la taille du cache KV par rapport à DeepSeek-V3.2
-
Proche de la frontière dans les benchmarks, mais pas au sommet
- Les benchmarks auto-reportés de DeepSeek montrent que le modèle Pro peut rivaliser avec d’autres modèles frontier
- Selon le papier, DeepSeek-V4-Pro-Max avec extension des tokens de raisonnement dépasse GPT-5.2 et Gemini-3.0-Pro sur les benchmarks standards de raisonnement
- Il reste toutefois légèrement en dessous de GPT-5.4 et de Gemini-3.1-Pro, avec une trajectoire de développement en retard d’environ 3 à 6 mois sur les modèles frontier les plus avancés
- Une version quantifiée par Unsloth est attendue sur huggingface.co/unsloth/models, et la question reste de savoir à quel point le modèle Flash fonctionnera bien en local
2 commentaires
Pour commencer, c’est vraiment appréciable que ce soit si peu cher, mais le problème c’est que c’est beaucoup trop lent… ce qui prendrait 5 minutes avec codex, celui-ci y réfléchit pendant 20 minutes. Du coup, je l’utilise plutôt pour la revue de code que pour l’implémentation, et comme il s’en sort assez bien en revue de code, j’en suis plutôt satisfait.
Avis Hacker News
Pour moi, le plus gros point de différenciation, c’est que DeepSeek fait simplement ce qu’on lui demande. J’ai récemment essayé à la fois GPT et Claude pour de la rétro-ingénierie, et les deux ont refusé, au point que j’ai même reçu un avertissement sur mon compte OpenAI
Deepseek v4 pro 94%
Deepseek v4 flash - 96%
https://artificialanalysis.ai/evaluations/omniscience?models...
Ça m’a vraiment agacé, on aurait dit un vieux mème de Patrick dans SpongeBob. Je ne comprends pas pourquoi on veut transformer les modèles en agents d’application de la loi. Ce qui est illégal reste illégal, et il existe déjà des spécialistes pour traiter les crimes. Google n’a pas besoin de se poser en arbitre de la vérité et de la justice. Les forces de l’ordre sont déjà difficiles à mettre face à leurs responsabilités, mais au moins elles travaillent pour nous
Collègues développeurs, quel genre de monde sommes-nous en train de fabriquer ? C’est de la folie. Imaginez un marteau qui dirait « ne m’utilise pas sur des vis, seulement sur des clous. Recommence et je m’autodétruis ». J’aimerais vraiment qu’on arrête de produire ce genre de logiciel
Imaginez qu’OpenAI rachète 20 entreprises et qu’on vous empêche ensuite d’utiliser Figma, Next, etc., parce qu’un jour vous avez franchi une limite floue. Ce n’est pas seulement OpenAI, c’est tout l’écosystème qui est devenu trop difficile à lire
J’ai demandé à Gemini une citation de Catch-22, et il s’est interrompu plusieurs fois en plein streaming pour dire qu’il ne pouvait pas répondre, alors qu’il n’y avait rien de violent ou sexuel dedans. Le livre en contient, bien sûr, mais ça donne quand même l’impression qu’un compte workspace entier pourrait être pénalisé pour ça
En théorie, je sais que l’avenir devrait être local, mais si on pense au coût réel et à la consommation électrique dans les prochaines années, je ne sais pas à quel point ce sera réaliste pour la plupart des gens. Si on est dans cet écosystème, les processeurs M* font peut-être exception
DeepSeek v4 Pro m’a donné une impression de Claude Opus 4.6 en termes de personnalité, et le coût était impressionnant
Sur une base de code TypeScript assez volumineuse, je lui ai demandé de se concentrer sur un seul endpoint, d’examiner en profondeur l’API, les DTO, les services et les modèles de base de données à chaque couche, de bien comprendre tous les types liés, et d’éviter l’apparition de types temporaires
Il m’a fait un résumé très court mais essentiel des types introduits, de ceux qui étaient retournés, etc., puis je lui ai demandé de simplifier l’ensemble
Les deux prompts ont probablement parcouru beaucoup de fichiers, mais le coût total sur la version Pro a été de 0,09 $. Avec Claude Opus, même avant la hausse des prix, j’aurais facilement brûlé 9 à 13 $ rien qu’avec ces deux prompts, pour un gain probablement limité
Pour info, je n’ai pas utilisé OpenRouter mais directement l’API DeepSeek, parce qu’OpenRouter était lui-même limité en débit côté DeepSeek
grepen continu, et je pense que c’est un problème de harnaisDu coup, j’ai créé un MCP basé sur Prolog qui parse le code en graphe avec tree-sitter, afin que le modèle puisse poser des questions comme « quelles sont toutes les fonctions reliées à celle-ci ? ». Si on veut voir ce que fait un endpoint donné, on peut suivre tout le sous-graphe d’appels de façon triviale et prévisible
https://github.com/yogthos/chiasmus
À ce sujet, il existe une démo en direct qui fait tourner DeepSeek v4 Flash sur un MacBook 128 Go. La vidéo est en italien avec sous-titres anglais
https://www.youtube.com/watch?v=todMmp6AGCE
Je l’ai branché à vscode copilot pour utiliser à la fois flash et pro. Pour de petites preuves de concept, flash suffisait, c’était assez rapide et vraiment peu cher
Il s’est figé quelques fois, peut-être à cause de problèmes de latence, mais les résultats restaient bons. J’ai utilisé pro pour les tâches lourdes et la planification, et il s’en est très bien sorti
J’ai payé environ 10 centimes pour une petite preuve de concept, et ça fonctionnait exactement comme demandé. Pour moi, c’est une vraie alternative après la résiliation de GitHub Copilot à la fin du mois
Le coût est plus bas que celui des modèles de pointe, mais il y a deux facteurs qui font que DS4 Pro et K2.6 ne sont pas aussi bon marché qu’ils en ont l’air
DS4 Pro bénéficie d’une réduction sur l’API officielle, ce qui est souvent ignoré ou mélangé dans les discussions. Simon a utilisé le prix catalogue dans sa comparaison, donc ce n’est pas un problème ici
L’autre problème, c’est que DS4 Pro et K2.6 consomment souvent bien plus de tokens de raisonnement que les modèles de pointe. Dans mes tests, sur certains cas pathologiques, ils en consommaient tellement que le coût de la requête pouvait rattraper celui d’un modèle de pointe. Pour être juste, j’utilise DS et Kimi chez des fournisseurs tiers, donc ça peut venir de leur configuration
Mais si on regarde les pages modèles d’Artificial Analysis, sur leur benchmark d’intelligence, DSv4 Pro a utilisé 190M tokens, K2.6 170M, alors que GPT 5.5 high n’en a utilisé que 45M
Pour « Intelligence vs. Cost to Run Artificial Analysis Intelligence Index », je recommande de consulter « Intelligence vs Cost » dans l’interface. Les modèles open weight restent moins chers, mais pas autant que ce que le prix au token pourrait laisser penser
[0] https://artificialanalysis.ai/models/deepseek-v4-pro
[1] https://artificialanalysis.ai/models/kimi-k2-6
[2] https://artificialanalysis.ai/models/gpt-5-5-high
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main...
Ils ont introduit HCA et mCH, des méthodes assez nouvelles qui améliorent l’efficacité du long contexte et de l’attention. Par rapport à la v3.2, l’inférence ne demande que 27 % des FLOP, et le cache KV seulement 10 %. Ça veut dire qu’à ressources de calcul égales, on peut servir plus de 3 fois plus, avec seulement 30 % du cache KV précédent
Et en plus, cette release est une PREVIEW. DeepSeek est un vrai labo de recherche ouvert : à chaque release, ils produisent beaucoup de choses, mais surtout ils publient et partagent. Je l’exécute en local
Pour donner une idée de à quel point c’est « peu cher », avec la v3.2, en contexte 256k, la mémoire GPU débordait dans la mémoire système, et malgré ça j’étais satisfait d’environ 7 000 tokens/s. Cette fois, je peux faire tenir tout le contexte d’un million de tokens à 100 % dans la mémoire GPU, avec une vitesse plus de deux fois supérieure et de meilleurs résultats
C’est vraiment peu cher. Moonshot a clairement indiqué qu’ils manquaient de GPU, et c’est pour ça. S’ils avaient la capacité GPU des États-Unis et qu’ils subventionnaient le modèle comme ici, ils l’auraient distribué gratuitement
La dernière fois que j’avais tenté ça avec Opus 4.6, il avait englouti le budget de 10 $ que j’avais fixé avant même de revenir du premier prompt
Même avec un tarif très fortement remisé, on serait resté sur un montant à un chiffre pour une solution complète, alors qu’Opus aurait coûté un montant à deux chiffres pour n’obtenir exactement rien
La V4 a clairement franchi un cap par rapport à la V3.2 sur notre benchmark multilingue
Cela dit, deux réserves. En passant par OpenRouter pour l’inférence, le débit (TPS) était très lent et souvent instable. Même à l’instant, sur tous les fournisseurs disponibles, je vois du 10 à 30 TPS, ce qui n’est pas élevé pour un modèle qui réfléchit autant que DeepSeek
L’API officielle de DeepSeek ne garantit pas la confidentialité des données, même pour les utilisateurs payants
Via Azure AI Foundry, ces deux problèmes ne se posent peut-être pas. Pour le second, à ma connaissance, c’est le cas, mais je n’ai pas encore testé
Quoi qu’il en soit, c’est une bonne nouvelle de voir arriver davantage de modèles open weight capables de rivaliser jusqu’à un certain point avec les meilleurs modèles actuels
L’API officielle de DeepSeek, utilisée sur de longues sessions dans la même base de code, atteint plus de 99 % de taux de hit du cache, donc c’est bien moins cher que les modèles de pointe. Il y a un exemple de session à 200M tokens dans claude code
Je suis surpris que les gens, surtout quand ils utilisent directement les API des développeurs de modèles, ne se soucient absolument pas du fait que ces modèles s’entraînent publiquement sur leurs données
Quand il se passe quelque chose comme « GitHub inscrit désormais automatiquement le code de tout le monde à l’entraînement des modèles », il y a à juste titre des centaines de commentaires outrés. Mais dès qu’on parle d’utiliser des modèles chinois via OpenRouter, ce point disparaît presque complètement. On pourrait dire « ce ne sont pas les mêmes personnes », mais l’écart est tellement marqué qu’il est difficile d’y voir l’explication complète
C’est l’un des grands avantages des open weight. Ni la Chine ni les États-Unis ne récupèrent mes données
Même une fois le cirque des subventions terminé et tout le monde passé à une facturation purement à l’usage, ça laisse espérer que cela ne deviendra pas totalement inaccessible aux gens ordinaires qui n’ont pas un budget de 200 $ par mois
La première, c’est qu’on continue de découvrir comment caser davantage d’intelligence dans des modèles plus petits, donc à spécifications matérielles égales, on obtient avec le temps plus de capacité par modèle
La seconde, c’est que le matériel continue de s’améliorer et que l’offre rattrape la demande, donc pour 1 dollar on obtient au fil du temps de meilleures spécifications matérielles
J’espère qu’un jour on regardera le modèle actuel « accéder à l’IA via l’API d’un fournisseur » comme on regarde aujourd’hui l’époque où « tout le monde se connectait au mainframe de l’entreprise »
J’ai utilisé v4 pro ces derniers jours, et en termes de qualité, ça me semble globalement comparable à OpenAI 5.4 ou Opus 4.6. Je n’ai pas essayé 4.7
Pour être clair, je ne fais pas de travail de pointe. Je l’ai surtout utilisé pour du développement frontend, domaine dans lequel je ne suis pas très bon, et j’avais juste besoin de prototypes plausibles
Pour mes besoins, c’est un modèle tout à fait correct et à un prix raisonnable. Cela dit, j’attends vraiment qu’un modèle ouvert suffisamment petit pour tourner en local arrive. Je n’aime pas dépendre de la machine de quelqu’un d’autre, ni voir toutes mes données partir au passage
Pour info, j’en suis le cofondateur. L’idée est de faire tourner le modèle dans une enclave sécurisée, puis de vérifier que le code open source exécuté dans l’enclave correspond bien à l’attestation d’exécution. On utilise NVIDIA confidential computing
La documentation explique le processus de vérification : https://docs.tinfoil.sh/verification/verification-in-tinfoil