DeepSeek V4 : presque au niveau des modèles frontier, à une fraction du prix

(simonwillison.net)

1 points par GN⁺ 2 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

DeepSeek a dévoilé deux modèles preview pour inaugurer la série V4 : DeepSeek-V4-Pro et DeepSeek-V4-Flash. Tous deux sont des modèles Mixture of Experts prenant en charge un contexte de 1 million de tokens et publiés sous licence MIT
DeepSeek-V4-Pro est un modèle de 1.6T paramètres au total, avec 49B paramètres actifs, et semble devenir le plus grand modèle à poids ouverts à ce jour, devant Kimi K2.6, GLM-5.1 et DeepSeek V3.2
Le principal facteur différenciant de DeepSeek V4 est son prix : Flash coûte $0.14 en entrée et $0.28 en sortie par million de tokens, tandis que Pro est à $1.74 en entrée et $3.48 en sortie, soit moins que les petits et grands modèles comparables
Ces tarifs bas sont liés à une meilleure efficacité sur les longs contextes : avec un contexte de 1 million de tokens, Pro descend à 27 % des FLOPs par token et 10 % du cache KV de DeepSeek-V3.2, tandis que Flash tombe à 10 % des FLOPs et 7 % du cache KV
D'après ses propres benchmarks, DeepSeek-V4-Pro peut rivaliser avec les modèles frontier, mais reste légèrement en dessous de GPT-5.4 et Gemini-3.1-Pro, avec une trajectoire de développement accusant environ 3 à 6 mois de retard sur les modèles frontier les plus avancés

Publication des modèles et spécifications de base

DeepSeek a présenté en 2025, après V3.2 et V3.2 Speciale, les deux premiers modèles preview de la série V4 : DeepSeek-V4-Pro et DeepSeek-V4-Flash
Les deux modèles sont des modèles Mixture of Experts prenant en charge un contexte de 1 million de tokens et utilisent la licence MIT standard
DeepSeek-V4-Pro compte 1.6T paramètres au total avec 49B paramètres actifs, tandis que DeepSeek-V4-Flash compte 284B paramètres au total avec 13B paramètres actifs
DeepSeek-V4-Pro est plus grand que les 1.1T de Kimi K2.6, les 754B de GLM-5.1 et les 685B de DeepSeek V3.2, et semble ainsi devenir le plus grand modèle à poids ouverts
Sur Hugging Face, la taille du modèle est de 865GB pour Pro et 160GB pour Flash. Une version légèrement quantifiée de Flash pourrait fonctionner sur un MacBook Pro M5 avec 128GB de mémoire
Le modèle Pro pourrait lui aussi fonctionner sur la même machine s'il est possible de ne streamer depuis le disque que les experts actifs nécessaires
Test rapide via OpenRouter
- Le modèle a été appelé avec OpenRouter et llm-openrouter à l'aide de la commande suivante
- ```
llm install llm-openrouter
llm openrouter refresh
llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle'
```
- Les résultats générés ont été publiés ici : SVG du pélican par DeepSeek-V4-Flash et SVG du pélican par DeepSeek-V4-Pro
- À titre de comparaison, les résultats du même prompt avec DeepSeek V3.2 de décembre 2025, V3.1 d'août 2025 et V3-0324 de mars 2025 sont également fournis

Prix, efficacité et positionnement en performances

L'élément le plus marquant de DeepSeek V4 est son prix : d'après la page tarifaire de DeepSeek, Flash coûte $0.14 par million de tokens en entrée et $0.28 par million de tokens en sortie
Pro est facturé $1.74 par million de tokens en entrée et $3.48 par million de tokens en sortie
Dans le tableau comparatif, DeepSeek V4 Flash est moins cher que GPT-5.4 Nano à $0.20 en entrée et $1.25 en sortie, ainsi que Gemini 3.1 Flash-Lite à $0.25 en entrée et $1.50 en sortie, ce qui en fait le moins cher des petits modèles
DeepSeek V4 Pro est moins cher que Gemini 3.1 Pro à $2 en entrée et $12 en sortie, GPT-5.4 à $2.50 en entrée et $15 en sortie, Claude Sonnet 4.6 à $3 en entrée et $15 en sortie, Claude Opus 4.7 à $5 en entrée et $25 en sortie, ainsi que GPT-5.5 à $5 en entrée et $30 en sortie, ce qui en fait le moins cher des grands modèles frontier
L'optimisation explique ces prix bas
- Le papier de DeepSeek indique que cette sortie s'est fortement concentrée sur l'efficacité des prompts à long contexte
- Avec un contexte de 1 million de tokens, DeepSeek-V4-Pro tombe à 27 % des FLOPs par token et à 10 % de la taille du cache KV par rapport à DeepSeek-V3.2
- Dans les mêmes conditions, DeepSeek-V4-Flash descend à 10 % des FLOPs par token et à 7 % de la taille du cache KV par rapport à DeepSeek-V3.2
Selon les benchmarks, proche du frontier mais pas encore au sommet
- Les benchmarks auto-déclarés de DeepSeek montrent que le modèle Pro peut rivaliser avec d'autres modèles frontier
- D'après le papier, DeepSeek-V4-Pro-Max avec extension des tokens de raisonnement surpasse GPT-5.2 et Gemini-3.0-Pro sur les benchmarks de raisonnement standard
- Il reste toutefois légèrement en dessous de GPT-5.4 et Gemini-3.1-Pro, avec une trajectoire de développement accusant environ 3 à 6 mois de retard sur les modèles frontier les plus avancés
- La publication de versions quantifiées par Unsloth sur huggingface.co/unsloth/models est attendue, et la question de savoir à quel point le modèle Flash fonctionnera bien en local reste ouverte

DeepSeek V4 : presque au niveau des modèles frontier, à une fraction du prix

Publication des modèles et spécifications de base

Test rapide via OpenRouter

Prix, efficacité et positionnement en performances

L'optimisation explique ces prix bas

Selon les benchmarks, proche du frontier mais pas encore au sommet

À lire aussi

Aucun commentaire pour le moment.