DeepSeek pérennise la baisse de prix de V4 Pro
(api-docs.deepseek.com)- Le prix de l’API DeepSeek-V4-Pro est officiellement maintenu à un quart du tarif initial, même après la fin de la promotion de réduction de 75 %
- La facturation est basée sur un prix par million de tokens, et l’utilisation des tokens d’entrée et de sortie est directement déduite du solde
- Les modèles pris en charge sont DeepSeek-V4-Flash et DeepSeek-V4-Pro, tous deux compatibles avec le mode non-réflexif et le mode réflexif, ce dernier étant activé par défaut
- Pour les deux modèles, la longueur de contexte est de 1M, la sortie maximale est de 384K, et les limites de concurrence diffèrent : 2500 pour Flash, 500 pour Pro
- Le prix des accès au cache en entrée pour tous les modèles a été abaissé à un dixième du prix de lancement, avec une application à partir du 26 avril 2026 à 12:15 UTC
Critères de facturation
- L’unité de prix correspond à un tarif par million de tokens, les tokens étant la plus petite unité de texte reconnue par le modèle, qui peut être un mot, un nombre ou un signe de ponctuation
- La base de facturation est le volume total de tokens d’entrée et de tokens de sortie du modèle
- Le coût est calculé selon
nombre de tokens × prixet est directement déduit du solde rechargé ou du solde de crédit - Si un solde rechargé et un solde de crédit sont tous deux disponibles, le solde de crédit est utilisé en priorité
- Les prix des produits peuvent évoluer, et DeepSeek se réserve le droit de les ajuster
- Il est recommandé de recharger en fonction de l’usage réel et de vérifier régulièrement les prix les plus récents sur cette page
Modèles et prix
-
Modèles pris en charge
- DeepSeek-V4-Flash et DeepSeek-V4-Pro sont proposés
- Les deux modèles prennent en charge le mode non-réflexif et le mode réflexif, ce dernier étant activé par défaut
- Les noms de modèles
deepseek-chatetdeepseek-reasonerseront abandonnés à l’avenir - Pour des raisons de compatibilité,
deepseek-chatcorrespond au mode non-réflexif dedeepseek-v4-flash, etdeepseek-reasonerau mode réflexif dedeepseek-v4-flash
-
Endpoints et fonctionnalités
- La Base URL au format Anthropic est https://api.deepseek.com/anthropic
- La méthode pour basculer vers le mode réflexif est disponible dans Thinking Mode
- La documentation des fonctionnalités associées comprend Json Output, Tool Calls, Chat Prefix Completion(Beta), FIM Completion(Beta)
-
Contexte et limites de sortie
- La longueur de contexte est de 1M
- La sortie maximale est de 384K
Prix par million de tokens
| Élément | DeepSeek-V4-Flash | DeepSeek-V4-Pro |
|---|---|---|
| Tokens d’entrée, cache hit | $0.0028 | $0.003625 |
| Tokens d’entrée, cache miss | $0.14 | $0.435 |
| Tokens de sortie | $0.28 | $0.87 |
| Limite de concurrence | 2500 | 500 |
-
Ajustement de la remise DeepSeek-V4-Pro
- Le prix de DeepSeek-V4-Pro est affiché avec une réduction de 75 %
- Le prix des tokens d’entrée avec cache hit passe de $0.0145 à $0.003625
- Le prix des tokens d’entrée avec cache miss passe de $1.74 à $0.435
- Le prix des tokens de sortie passe de $3.48 à $0.87
- Même après la fin de la promotion de réduction de 75 % le 31 mai 2026 à 15:59 UTC, le prix de l’API DeepSeek-V4-Pro est officiellement ajusté à un quart du tarif initial
-
Baisse du prix des accès au cache
- Le prix des accès au cache en entrée pour tous les modèles a été abaissé à un dixième du prix de lancement
- Cet ajustement tarifaire s’applique à partir du 26 avril 2026 à 12:15 UTC
-
Limites de concurrence
- La limite de concurrence de DeepSeek-V4-Flash est de 2500
- La limite de concurrence de DeepSeek-V4-Pro est de 500
- Les détails sur les limites de concurrence sont disponibles dans Rate Limit & Isolation
1 commentaires
Réactions sur Hacker News
Si DeepSeek lance son propre agent de code, je pourrais commencer à utiliser principalement ses modèles
Ils semblent continuer à faire les choses « dans le bon sens » : open source des modèles, publications de recherche, maintien de prix bas
On peut utiliser V4 Pro dans Claude Code 1
Je l’ai essayé moi-même et j’ai été impressionné
Ça marche aussi très bien avec OpenCode
Mon équipe se heurte souvent à la limite de 5 heures d’un autre service par abonnement, donc avoir DeepSeek en secours est plutôt appréciable
J’ai juste crédité 50 dollars, et j’ai l’impression que ça ne diminuera jamais
Ça ne remplace pas encore complètement les modèles de pointe, mais comme solution de secours c’est clairement excellent
Je ne suis pas sûr que DeepSeek ait vraiment besoin de proposer jusqu’à un agent de code
Il suffit de brancher le modèle sur n’importe quel agent de code existant
Personnellement, je préfère Pi, mais chacun peut utiliser ce qui lui convient
J’ai commencé à tester les modèles chinois sur ma base de code au début de cette semaine
Pour l’instant, j’ai surtout regardé la classification d’issues, la correction automatique de bugs, l’analyse de logs, etc., et j’ai comparé DeepSeek, Kimi, GLM, Qwen et MiMO à GPT-5.5 high, le tout exécuté dans le harnais Pi sans installation
Pour l’instant, Kimi et MiMO me semblent les plus prometteurs
Je n’ai pas encore fait assez de tests pour être rigoureux, mais ma première impression est que, pour les tâches quotidiennes classiques en production, ces modèles ne sont peut-être pas aussi en retard que ce que beaucoup imaginent
En revanche, ils ont davantage tendance à « travailler plus dur qu’intelligemment » : ils arrivent au même résultat plus lentement et en consommant plus de tokens, mais à un prix bien plus bas
Je préférerais que les agents de code soient dans une certaine mesure indépendants des fournisseurs de modèles
Les fournisseurs changent trop souvent la qualité, les fonctionnalités et les prix, donc je n’ai pas envie de devoir aussi changer d’agent à chaque fois
J’espère que la situation va un peu ralentir et se stabiliser
Pas forcément tout de suite, mais ce serait bien qu’on y arrive
Si vous n’avez pas encore essayé DeepSeek V4, vous ratez vraiment quelque chose
C’est incroyablement bon pour ce prix
La chaîne de pensée de DeepSeek est vraiment fascinante à lire
OpenCode ne l’affiche pas, mais si vous la lisez directement, vous pourriez être surpris de voir à quel point ce modèle est sous-estimé
Mon usage des modèles est très faible, mais je paie régulièrement DeepSeek directement pour les remercier d’avoir mis les modèles en open source et pour montrer mon soutien à cette orientation que je considère comme un bien social global
C’est bon et peu cher, mais si vous lancez un sujet politique, des règles de censure ou assimilées peuvent se déclencher
J’ai vu le raisonnement se dérouler puis, soudain, tout s’effacer et le modèle proposer de passer à un autre sujet sans aucune explication
Il a aussi déjà affiché un message très générique sur les médias d’information au service du peuple
Dans les deux cas, la demande n’avait rien de sensible, d’illégal ou de subversif, donc ça m’a surpris
Mais le sujet était ne serait-ce qu’un peu politique, et ça a suffi
La censure occidentale est généralement plus subtile, donc c’était à la fois glaçant et étrangement rafraîchissant
Oui, le modèle est vraiment bon
J’utilise Claude au travail et DeepSeek à titre personnel, et c’est le seul modèle qui n’essaie pas activement de me ruiner
J’aime V4 Pro pour certaines tâches, mais pour le code, V4 Flash m’a plutôt impressionné
Il est concis, va droit au but, fait peu d’erreurs et il est assez rapide
Dans le CLI opencode, on voit les traces de raisonnement
C’est peut-être un problème de configuration
On peut activer et désactiver l’affichage du raisonnement dans opencode
Ce prix est suspect tant il est bas
Héberger le même modèle chez d’autres fournisseurs coûte bien plus cher 0
Donc soit DeepSeek peut l’héberger beaucoup moins cher que les autres, soit son modèle économique est différent, et je penche pour la seconde option
D’autant plus que leur politique de confidentialité 1 dit qu’ils peuvent utiliser les données personnelles, y compris les « User Input », pour « l’amélioration et le développement du service, l’entraînement et l’amélioration technologiques »
C’est peut-être une question idiote, mais quand je regarde OpenRouter, j’ai l’impression que DeepSeek n’est vraiment disponible qu’aux États-Unis, à Singapour et en Chine
Ça semble pourtant être une offre tellement évidente pour des fournisseurs européens ou occidentaux
Je suis convaincu que ce serait un bond bien plus important que Mistral
J’aimerais essayer ces modèles, mais je préfère éviter les fournisseurs qui entraînent sur mes données ou les stockent au-delà des obligations légales standard
Plusieurs facteurs entrent en jeu
Côté efficacité de la stack d’inférence, beaucoup de fournisseurs prennent du sglang / vllm / trtllm sur étagère et espèrent le meilleur, mais l’équipe DeepSeek est connue pour pousser les limites de l’optimisation
sglang et vllm sont d’excellents logiciels, mais si l’on regarde l’attention creuse de DeepSeek (DSA), elle a été introduite il y a 1,5 an (https://arxiv.org/abs/2512.02556) et a été utilisée dans DeepSeek 3.2, GLM 5 et DeepSeek V4
Ce n’est que maintenant que les grands moteurs d’inférence commencent lentement à l’optimiser : (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 etc.)
Bien sûr, DS V4 ajoute aussi des optimisations architecturales par-dessus la DSA, et il faudra encore du temps pour que les moteurs d’inférence open source puissent en tirer pleinement parti
Sur le plan de la confidentialité, le pari est que des gens paieront un surcoût pour une inférence hébergée hors de Chine
C’est particulièrement vrai parce que DeepSeek indique de manière transparente qu’il utilise les données API pour améliorer ses modèles
Il y a aussi d’autres facteurs comme l’échelle — très importante en MoE —, la fiabilité et une forme douce de dépendance des clients entreprise
Il y a probablement aussi une forme de collusion implicite
Si l’on regarde le prix de GLM 5 et GLM 5.1, leur coût d’exécution est le même, mais 5.1 est un bien meilleur modèle, et comme Z.AI a augmenté son prix, les fournisseurs ont eux aussi appliqué un tarif plus élevé à 5.1
Ils vendent clairement à perte
Mais après tout, pourquoi pas
Gagner des parts de marché en absorbant des pertes n’est pas un monopole réservé aux États-Unis
Vous ne connaissez peut-être pas assez bien le fondateur de DeepSeek, Liang Wenfeng
Il est aussi le fondateur de High-Flyer Quant
Je suis encore plus curieux à propos du cache
Il est écrit que « sur tous les modèles, le prix en cas de hit du cache d’entrée a été abaissé à 1/10 du prix de lancement, et cet ajustement de prix s’applique à partir du 26/04/2026 à 12:15 UTC »
Il n’y a pas de date de fin
Actuellement, DeepSeek V4 Flash est à 2 % du prix d’entrée, et avec ce nouveau tarif V4 Pro on tombe à 0,8 %, ce qui est extrêmement bas face à la concurrence et affecte même l’économie unitaire, donc je pensais que ce serait temporaire
Pour V4 Pro, le coût effectif avec cache est d’environ 0,04 $ par million de tokens d’entrée (selon les métriques OpenRouter : https://openrouter.ai/deepseek/deepseek-v4-pro)
C’est bien moins cher que les petits modèles de la concurrence
Le cache KV de DeepSeek V4 est très efficace grâce à une architecture d’attention creuse fortement compressée
DeepSeek V3.2, qui n’utilise que la DSA, est pourtant un modèle plus petit, mais il consomme 10 fois plus de mémoire que DS V4 Pro sur une fenêtre de contexte de 1 million
En outre, l’API DeepSeek a un très bon taux de hit du cache
À charge équivalente, les grands fournisseurs occidentaux d’inférence qui proposent des modèles à poids ouverts ont un taux de hit du cache KV d’environ 50 %, alors que l’API DS tourne autour de 80 %
Le grand point fort de DeepSeek V4, c’est que la taille du cache KV a énormément diminué
Flash en soi n’est pas un modèle particulièrement compétitif, et son prix est dans la même fourchette que d’autres modèles du marché
Le concurrent le plus direct de Flash est probablement quelque chose comme ceci
GPT 5.4 mini
Cache Read
$0.075
/M tokens
Gemini 3 flash:
Cache Read
$0.05
/M tokens
Donc il n’y a rien de spécialement magique ou révolutionnaire
Sonnet :
Cache Read
$0.30
Gemini 3.5 flash :
Cache Read
$0.15
Le rapport qualité-prix est énorme
J’utilise GLM Coding Plan Max avec GLM 5.1 depuis un moment et je teste aussi DeepSeek V4 Pro depuis environ 3 semaines ; sur les tâches de code complexes, je le trouve meilleur que GLM 5.1
J’ai consommé 65 millions de tokens, et à ce tarif j’en ai eu pour 1,5 dollar, c’est vraiment peu cher
Impressionnant
Avec cette baisse de prix, DeepSeek V4 Pro devient extrêmement bon marché par rapport aux autres modèles de sa catégorie
Si on regarde le prix par million de tokens de sortie, ça donne ceci
DeepSeek V4 Pro: $0.87
Qwen 3.7 Max: $7.50
Grok 4.3: $2.50
GLM 1.5: $3.08
Opus 4.7: $25.00
GPT-5.5: $30.00
Dans les workflows agentiques, ce coût peut dominer, et le coût de lecture du cache de DeepSeek est incomparablement bas
On parle de $0.003626 par million de tokens, alors que le suivant le moins cher dans la liste est au-dessus de $0.2 par million
On est presque sur un facteur 100
Ça montre qu’il est possible de faire de l’inférence efficacement, à condition de ne pas simplement être autorisé à brûler de l’argent sans contrainte
Si, deux mois après l’abonnement, ils rendent Opus pire que GPT-3 pour économiser des coûts, peu importe qu’Opus ait été excellent au départ
Même en tenant compte de la réduction sur V4 Pro, V4 Flash offre toujours les meilleures performances par dollar, et il est même meilleur en performance globale sur les tâches agentiques et à fort usage d’outils
V4 Pro est plus intelligent sur l’inférence en one-shot, mais la différence de vitesse est importante
Si on combine performances, coût et vitesse, V4 Flash est de loin notre meilleur modèle flash du moment
Les données sont ici : https://gertlabs.com/rankings
Leur architecture MLA réduit le cache KV d’environ 5 à 13 fois par rapport à l’attention standard
Donc ce n’est pas seulement une guerre des prix pour gagner des parts de marché : le coût réel d’exécution de l’inférence est effectivement plus bas
Ça rend possibles de longs contextes, l’inférence par lots et le stockage disque du cache KV sur des plateformes grand public
Cette réduction était probablement une expérimentation de marché post-lancement pour vérifier l’efficacité du cache sur la nouvelle génération de modèles
Je m’inquiète davantage des fuites de données accidentelles avec des modèles hébergés en Chine qu’avec des modèles hébergés aux États-Unis
Par exemple dans le cas où un agent lirait un fichier env
Est-ce vraiment absurde de soupçonner que le gouvernement chinois soit plus susceptible que le gouvernement américain ou que des entreprises américaines de scanner toutes les conversations et de conserver les informations utiles ?
J’ai même hésité à écrire ce commentaire parce que ça peut paraître biaisé ou xénophobe
J’aimerais que quelqu’un me convainque que j’ai tort
Est-ce que quelqu’un connaît l’entreprise derrière l’hébergement de DeepSeek, ou son historique en matière de respect de la vie privée des données ?
Ce n’est pas une inquiétude irrationnelle
C’est pour cela que la plupart des entreprises américaines préfèrent AWS Bedrock ou les laboratoires d’IA, et demandent généralement des contrats sans conservation des données
Mais le risque de fuite existe quel que soit l’endroit où c’est hébergé ; ce qui change surtout, ce sont les incitations
Par exemple, les laboratoires scannent aussi toutes les conversations et entraînent sur les données qui ne sont pas protégées par des contrats entreprise ZDR
Les autorités peuvent demander l’accès à toutes les données utilisateurs avec un mandat valide ou en situation d’urgence 1
Si vous voulez essayer DeepSeek V4 en privé, vous pouvez regarder Tinfoil (tinfoil.sh)
Ils hébergent tous les modèles dans des enclaves matérielles sécurisées vérifiables, pour rendre l’inférence privée de bout en bout
Pour être transparent, je suis l’un des cofondateurs
1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...
Il suffit de passer par quelque chose comme Azure
Ils hébergent le modèle complet et le proposent depuis les États-Unis
Il y a sûrement d’autres fournisseurs de ce type
C’est comme ça que nous l’utilisons et ça marche très bien
Ça ne me surprendrait pas s’ils faisaient ça
Et ça ne me surprendrait pas beaucoup plus si des modèles basés aux États-Unis faisaient la même chose pour d’autres gouvernements
Je n’ai pas de grandes attentes en matière de confidentialité des données
Microsoft coche toutes les cases côté entreprise, mais même Azure subit parfois des compromissions
Je dirais que la probabilité n’est pas nulle
Pékin pourrait décider à tout moment que DeepSeek est devenu trop puissant ou qu’il est devenu un produit d’exportation stratégique, et intervenir
Rien ne garantit que ça ne soit pas déjà le cas
Il y a déjà de nombreux rapports indiquant que des acteurs étrangers, pas seulement chinois, ont infiltré à grande échelle des réseaux critiques dans plusieurs secteurs américains, en attendant le bon moment pour les exploiter
Les modèles de pointe constituent un vecteur d’attaque supplémentaire, et à bien y réfléchir, probablement bien plus facile à exploiter
En réalité, cette possibilité existe avec n’importe quel modèle hébergé dans le cloud
Que ce soit intentionnel de la part de l’entreprise qui fabrique le modèle, ou qu’un acteur malveillant exploite une faille, le risque existe de toute façon
Je ne suis pas assez important pour que quelqu’un en Chine vienne me cibler personnellement
Et DeepSeek doit conserver assez de confiance pour que les utilisateurs continuent à utiliser sa plateforme
S’ils se comportaient comme un keylogger attaquant les portefeuilles crypto de tout le monde, cette confiance s’effondrerait
Si je travaillais sur quelque chose que le gouvernement chinois juge stratégiquement important, évidemment que je m’en inquiéterais, mais ce n’est pas mon cas
Ce qui m’inquiète davantage, c’est que les riches du secteur tech de ce pays me profilent massivement avec des LLM et construisent ici quelque chose d’encore plus dystopique que le système de crédit social réel ou imaginaire de la Chine
Ceux qui essaient de vous convaincre, vous citoyen américain, que vous devez surtout craindre le gouvernement chinois sont probablement précisément les personnes dont il faut le plus se méfier
Si quelqu’un veut le brancher sur copilot, j’avais écrit il y a quelque temps un script proxy pour gérer la connexion, et ça peut être utile : https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...