DeepSeek V4 : presque au niveau des modèles frontier, à une fraction du prix
(simonwillison.net)- DeepSeek a dévoilé deux modèles preview pour inaugurer la série V4 : DeepSeek-V4-Pro et DeepSeek-V4-Flash. Tous deux sont des modèles Mixture of Experts prenant en charge un contexte de 1 million de tokens et publiés sous licence MIT
- DeepSeek-V4-Pro est un modèle de 1.6T paramètres au total, avec 49B paramètres actifs, et semble devenir le plus grand modèle à poids ouverts à ce jour, devant Kimi K2.6, GLM-5.1 et DeepSeek V3.2
- Le principal facteur différenciant de DeepSeek V4 est son prix : Flash coûte $0.14 en entrée et $0.28 en sortie par million de tokens, tandis que Pro est à $1.74 en entrée et $3.48 en sortie, soit moins que les petits et grands modèles comparables
- Ces tarifs bas sont liés à une meilleure efficacité sur les longs contextes : avec un contexte de 1 million de tokens, Pro descend à 27 % des FLOPs par token et 10 % du cache KV de DeepSeek-V3.2, tandis que Flash tombe à 10 % des FLOPs et 7 % du cache KV
- D'après ses propres benchmarks, DeepSeek-V4-Pro peut rivaliser avec les modèles frontier, mais reste légèrement en dessous de GPT-5.4 et Gemini-3.1-Pro, avec une trajectoire de développement accusant environ 3 à 6 mois de retard sur les modèles frontier les plus avancés
Publication des modèles et spécifications de base
- DeepSeek a présenté en 2025, après V3.2 et V3.2 Speciale, les deux premiers modèles preview de la série V4 : DeepSeek-V4-Pro et DeepSeek-V4-Flash
- Les deux modèles sont des modèles Mixture of Experts prenant en charge un contexte de 1 million de tokens et utilisent la licence MIT standard
- DeepSeek-V4-Pro compte 1.6T paramètres au total avec 49B paramètres actifs, tandis que DeepSeek-V4-Flash compte 284B paramètres au total avec 13B paramètres actifs
- DeepSeek-V4-Pro est plus grand que les 1.1T de Kimi K2.6, les 754B de GLM-5.1 et les 685B de DeepSeek V3.2, et semble ainsi devenir le plus grand modèle à poids ouverts
- Sur Hugging Face, la taille du modèle est de 865GB pour Pro et 160GB pour Flash. Une version légèrement quantifiée de Flash pourrait fonctionner sur un MacBook Pro M5 avec 128GB de mémoire
- Le modèle Pro pourrait lui aussi fonctionner sur la même machine s'il est possible de ne streamer depuis le disque que les experts actifs nécessaires
-
Test rapide via OpenRouter
- Le modèle a été appelé avec OpenRouter et llm-openrouter à l'aide de la commande suivante
-
llm install llm-openrouter llm openrouter refresh llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle' - Les résultats générés ont été publiés ici : SVG du pélican par DeepSeek-V4-Flash et SVG du pélican par DeepSeek-V4-Pro
- À titre de comparaison, les résultats du même prompt avec DeepSeek V3.2 de décembre 2025, V3.1 d'août 2025 et V3-0324 de mars 2025 sont également fournis
Prix, efficacité et positionnement en performances
- L'élément le plus marquant de DeepSeek V4 est son prix : d'après la page tarifaire de DeepSeek, Flash coûte $0.14 par million de tokens en entrée et $0.28 par million de tokens en sortie
- Pro est facturé $1.74 par million de tokens en entrée et $3.48 par million de tokens en sortie
- Dans le tableau comparatif, DeepSeek V4 Flash est moins cher que GPT-5.4 Nano à $0.20 en entrée et $1.25 en sortie, ainsi que Gemini 3.1 Flash-Lite à $0.25 en entrée et $1.50 en sortie, ce qui en fait le moins cher des petits modèles
- DeepSeek V4 Pro est moins cher que Gemini 3.1 Pro à $2 en entrée et $12 en sortie, GPT-5.4 à $2.50 en entrée et $15 en sortie, Claude Sonnet 4.6 à $3 en entrée et $15 en sortie, Claude Opus 4.7 à $5 en entrée et $25 en sortie, ainsi que GPT-5.5 à $5 en entrée et $30 en sortie, ce qui en fait le moins cher des grands modèles frontier
-
L'optimisation explique ces prix bas
- Le papier de DeepSeek indique que cette sortie s'est fortement concentrée sur l'efficacité des prompts à long contexte
- Avec un contexte de 1 million de tokens, DeepSeek-V4-Pro tombe à 27 % des FLOPs par token et à 10 % de la taille du cache KV par rapport à DeepSeek-V3.2
- Dans les mêmes conditions, DeepSeek-V4-Flash descend à 10 % des FLOPs par token et à 7 % de la taille du cache KV par rapport à DeepSeek-V3.2
-
Selon les benchmarks, proche du frontier mais pas encore au sommet
- Les benchmarks auto-déclarés de DeepSeek montrent que le modèle Pro peut rivaliser avec d'autres modèles frontier
- D'après le papier, DeepSeek-V4-Pro-Max avec extension des tokens de raisonnement surpasse GPT-5.2 et Gemini-3.0-Pro sur les benchmarks de raisonnement standard
- Il reste toutefois légèrement en dessous de GPT-5.4 et Gemini-3.1-Pro, avec une trajectoire de développement accusant environ 3 à 6 mois de retard sur les modèles frontier les plus avancés
- La publication de versions quantifiées par Unsloth sur huggingface.co/unsloth/models est attendue, et la question de savoir à quel point le modèle Flash fonctionnera bien en local reste ouverte
Aucun commentaire pour le moment.