DeepSeek pérennise la baisse de prix de V4 Pro

(api-docs.deepseek.com)

3 points par GN⁺ 2026-05-23 | 3 commentaires | Partager sur WhatsApp

Le prix de l’API DeepSeek-V4-Pro est officiellement maintenu à un quart du tarif initial, même après la fin de la promotion de réduction de 75 %
La facturation est basée sur un prix par million de tokens, et l’utilisation des tokens d’entrée et de sortie est directement déduite du solde
Les modèles pris en charge sont DeepSeek-V4-Flash et DeepSeek-V4-Pro, tous deux compatibles avec le mode non-réflexif et le mode réflexif, ce dernier étant activé par défaut
Pour les deux modèles, la longueur de contexte est de 1M, la sortie maximale est de 384K, et les limites de concurrence diffèrent : 2500 pour Flash, 500 pour Pro
Le prix des accès au cache en entrée pour tous les modèles a été abaissé à un dixième du prix de lancement, avec une application à partir du 26 avril 2026 à 12:15 UTC

Critères de facturation

L’unité de prix correspond à un tarif par million de tokens, les tokens étant la plus petite unité de texte reconnue par le modèle, qui peut être un mot, un nombre ou un signe de ponctuation
La base de facturation est le volume total de tokens d’entrée et de tokens de sortie du modèle
Le coût est calculé selon nombre de tokens × prix et est directement déduit du solde rechargé ou du solde de crédit
Si un solde rechargé et un solde de crédit sont tous deux disponibles, le solde de crédit est utilisé en priorité
Les prix des produits peuvent évoluer, et DeepSeek se réserve le droit de les ajuster
Il est recommandé de recharger en fonction de l’usage réel et de vérifier régulièrement les prix les plus récents sur cette page

Modèles et prix

Modèles pris en charge
- DeepSeek-V4-Flash et DeepSeek-V4-Pro sont proposés
- Les deux modèles prennent en charge le mode non-réflexif et le mode réflexif, ce dernier étant activé par défaut
- Les noms de modèles deepseek-chat et deepseek-reasoner seront abandonnés à l’avenir
- Pour des raisons de compatibilité, deepseek-chat correspond au mode non-réflexif de deepseek-v4-flash, et deepseek-reasoner au mode réflexif de deepseek-v4-flash
Endpoints et fonctionnalités
- La Base URL au format Anthropic est https://api.deepseek.com/anthropic
- La méthode pour basculer vers le mode réflexif est disponible dans Thinking Mode
- La documentation des fonctionnalités associées comprend Json Output, Tool Calls, Chat Prefix Completion（Beta）, FIM Completion（Beta）
Contexte et limites de sortie
- La longueur de contexte est de 1M
- La sortie maximale est de 384K

Prix par million de tokens

Élément	DeepSeek-V4-Flash	DeepSeek-V4-Pro
Tokens d’entrée, cache hit	$0.0028	$0.003625
Tokens d’entrée, cache miss	$0.14	$0.435
Tokens de sortie	$0.28	$0.87
Limite de concurrence	2500	500

Ajustement de la remise DeepSeek-V4-Pro
- Le prix de DeepSeek-V4-Pro est affiché avec une réduction de 75 %
- Le prix des tokens d’entrée avec cache hit passe de $0.0145 à $0.003625
- Le prix des tokens d’entrée avec cache miss passe de $1.74 à $0.435
- Le prix des tokens de sortie passe de $3.48 à $0.87
- Même après la fin de la promotion de réduction de 75 % le 31 mai 2026 à 15:59 UTC, le prix de l’API DeepSeek-V4-Pro est officiellement ajusté à un quart du tarif initial
Baisse du prix des accès au cache
- Le prix des accès au cache en entrée pour tous les modèles a été abaissé à un dixième du prix de lancement
- Cet ajustement tarifaire s’applique à partir du 26 avril 2026 à 12:15 UTC
Limites de concurrence
- La limite de concurrence de DeepSeek-V4-Flash est de 2500
- La limite de concurrence de DeepSeek-V4-Pro est de 500
- Les détails sur les limites de concurrence sont disponibles dans Rate Limit & Isolation

3 commentaires

j2sus91 2026-05-26

Si vous regardez les conditions d’utilisation, il paraît qu’il n’y est pas explicitement indiqué que l’usage de l’API ne sera pas utilisé pour l’entraînement.
Je pense qu’il vaut mieux garder ce point en tête avant de l’utiliser~

myoun 2026-05-25

Oh, c'est bien.

GN⁺ 2026-05-23

Réactions sur Hacker News

Si DeepSeek lance son propre agent de code, je pourrais commencer à utiliser principalement ses modèles
Ils semblent continuer à faire les choses « dans le bon sens » : open source des modèles, publications de recherche, maintien de prix bas
- On peut utiliser V4 Pro dans Claude Code 1
  Je l’ai essayé moi-même et j’ai été impressionné
- Ça marche aussi très bien avec OpenCode
  Mon équipe se heurte souvent à la limite de 5 heures d’un autre service par abonnement, donc avoir DeepSeek en secours est plutôt appréciable
  J’ai juste crédité 50 dollars, et j’ai l’impression que ça ne diminuera jamais
  
  Ça ne remplace pas encore complètement les modèles de pointe, mais comme solution de secours c’est clairement excellent
- Je ne suis pas sûr que DeepSeek ait vraiment besoin de proposer jusqu’à un agent de code
  Il suffit de brancher le modèle sur n’importe quel agent de code existant
  Personnellement, je préfère Pi, mais chacun peut utiliser ce qui lui convient
- J’ai commencé à tester les modèles chinois sur ma base de code au début de cette semaine
  Pour l’instant, j’ai surtout regardé la classification d’issues, la correction automatique de bugs, l’analyse de logs, etc., et j’ai comparé DeepSeek, Kimi, GLM, Qwen et MiMO à GPT-5.5 high, le tout exécuté dans le harnais Pi sans installation
  
  Pour l’instant, Kimi et MiMO me semblent les plus prometteurs
  Je n’ai pas encore fait assez de tests pour être rigoureux, mais ma première impression est que, pour les tâches quotidiennes classiques en production, ces modèles ne sont peut-être pas aussi en retard que ce que beaucoup imaginent
  
  En revanche, ils ont davantage tendance à « travailler plus dur qu’intelligemment » : ils arrivent au même résultat plus lentement et en consommant plus de tokens, mais à un prix bien plus bas
- Je préférerais que les agents de code soient dans une certaine mesure indépendants des fournisseurs de modèles
  Les fournisseurs changent trop souvent la qualité, les fonctionnalités et les prix, donc je n’ai pas envie de devoir aussi changer d’agent à chaque fois
  
  J’espère que la situation va un peu ralentir et se stabiliser
  Pas forcément tout de suite, mais ce serait bien qu’on y arrive
Si vous n’avez pas encore essayé DeepSeek V4, vous ratez vraiment quelque chose
C’est incroyablement bon pour ce prix

La chaîne de pensée de DeepSeek est vraiment fascinante à lire
OpenCode ne l’affiche pas, mais si vous la lisez directement, vous pourriez être surpris de voir à quel point ce modèle est sous-estimé

Mon usage des modèles est très faible, mais je paie régulièrement DeepSeek directement pour les remercier d’avoir mis les modèles en open source et pour montrer mon soutien à cette orientation que je considère comme un bien social global
- C’est bon et peu cher, mais si vous lancez un sujet politique, des règles de censure ou assimilées peuvent se déclencher
  J’ai vu le raisonnement se dérouler puis, soudain, tout s’effacer et le modèle proposer de passer à un autre sujet sans aucune explication
  Il a aussi déjà affiché un message très générique sur les médias d’information au service du peuple
  
  Dans les deux cas, la demande n’avait rien de sensible, d’illégal ou de subversif, donc ça m’a surpris
  Mais le sujet était ne serait-ce qu’un peu politique, et ça a suffi
  La censure occidentale est généralement plus subtile, donc c’était à la fois glaçant et étrangement rafraîchissant
- Oui, le modèle est vraiment bon
  J’utilise Claude au travail et DeepSeek à titre personnel, et c’est le seul modèle qui n’essaie pas activement de me ruiner
- J’aime V4 Pro pour certaines tâches, mais pour le code, V4 Flash m’a plutôt impressionné
  Il est concis, va droit au but, fait peu d’erreurs et il est assez rapide
- Dans le CLI opencode, on voit les traces de raisonnement
  C’est peut-être un problème de configuration
- On peut activer et désactiver l’affichage du raisonnement dans opencode
Ce prix est suspect tant il est bas
Héberger le même modèle chez d’autres fournisseurs coûte bien plus cher 0
Donc soit DeepSeek peut l’héberger beaucoup moins cher que les autres, soit son modèle économique est différent, et je penche pour la seconde option
D’autant plus que leur politique de confidentialité 1 dit qu’ils peuvent utiliser les données personnelles, y compris les « User Input », pour « l’amélioration et le développement du service, l’entraînement et l’amélioration technologiques »
- C’est peut-être une question idiote, mais quand je regarde OpenRouter, j’ai l’impression que DeepSeek n’est vraiment disponible qu’aux États-Unis, à Singapour et en Chine
  Ça semble pourtant être une offre tellement évidente pour des fournisseurs européens ou occidentaux
  Je suis convaincu que ce serait un bond bien plus important que Mistral
  
  J’aimerais essayer ces modèles, mais je préfère éviter les fournisseurs qui entraînent sur mes données ou les stockent au-delà des obligations légales standard
- Plusieurs facteurs entrent en jeu
  Côté efficacité de la stack d’inférence, beaucoup de fournisseurs prennent du sglang / vllm / trtllm sur étagère et espèrent le meilleur, mais l’équipe DeepSeek est connue pour pousser les limites de l’optimisation
  
  sglang et vllm sont d’excellents logiciels, mais si l’on regarde l’attention creuse de DeepSeek (DSA), elle a été introduite il y a 1,5 an (https://arxiv.org/abs/2512.02556) et a été utilisée dans DeepSeek 3.2, GLM 5 et DeepSeek V4
  Ce n’est que maintenant que les grands moteurs d’inférence commencent lentement à l’optimiser : (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 etc.)
  Bien sûr, DS V4 ajoute aussi des optimisations architecturales par-dessus la DSA, et il faudra encore du temps pour que les moteurs d’inférence open source puissent en tirer pleinement parti
  
  Sur le plan de la confidentialité, le pari est que des gens paieront un surcoût pour une inférence hébergée hors de Chine
  C’est particulièrement vrai parce que DeepSeek indique de manière transparente qu’il utilise les données API pour améliorer ses modèles
  
  Il y a aussi d’autres facteurs comme l’échelle — très importante en MoE —, la fiabilité et une forme douce de dépendance des clients entreprise
  
  Il y a probablement aussi une forme de collusion implicite
  Si l’on regarde le prix de GLM 5 et GLM 5.1, leur coût d’exécution est le même, mais 5.1 est un bien meilleur modèle, et comme Z.AI a augmenté son prix, les fournisseurs ont eux aussi appliqué un tarif plus élevé à 5.1
- Ils vendent clairement à perte
  Mais après tout, pourquoi pas
  Gagner des parts de marché en absorbant des pertes n’est pas un monopole réservé aux États-Unis
- Vous ne connaissez peut-être pas assez bien le fondateur de DeepSeek, Liang Wenfeng
  Il est aussi le fondateur de High-Flyer Quant
Je suis encore plus curieux à propos du cache
Il est écrit que « sur tous les modèles, le prix en cas de hit du cache d’entrée a été abaissé à 1/10 du prix de lancement, et cet ajustement de prix s’applique à partir du 26/04/2026 à 12:15 UTC »

Il n’y a pas de date de fin
Actuellement, DeepSeek V4 Flash est à 2 % du prix d’entrée, et avec ce nouveau tarif V4 Pro on tombe à 0,8 %, ce qui est extrêmement bas face à la concurrence et affecte même l’économie unitaire, donc je pensais que ce serait temporaire

Pour V4 Pro, le coût effectif avec cache est d’environ 0,04 $ par million de tokens d’entrée (selon les métriques OpenRouter : https://openrouter.ai/deepseek/deepseek-v4-pro)
C’est bien moins cher que les petits modèles de la concurrence
- Le cache KV de DeepSeek V4 est très efficace grâce à une architecture d’attention creuse fortement compressée
  DeepSeek V3.2, qui n’utilise que la DSA, est pourtant un modèle plus petit, mais il consomme 10 fois plus de mémoire que DS V4 Pro sur une fenêtre de contexte de 1 million
  
  En outre, l’API DeepSeek a un très bon taux de hit du cache
  À charge équivalente, les grands fournisseurs occidentaux d’inférence qui proposent des modèles à poids ouverts ont un taux de hit du cache KV d’environ 50 %, alors que l’API DS tourne autour de 80 %
- Le grand point fort de DeepSeek V4, c’est que la taille du cache KV a énormément diminué
- Flash en soi n’est pas un modèle particulièrement compétitif, et son prix est dans la même fourchette que d’autres modèles du marché
  Le concurrent le plus direct de Flash est probablement quelque chose comme ceci
  
  GPT 5.4 mini
  
  Cache Read
  $0.075
  /M tokens
  
  Gemini 3 flash:
  
  Cache Read
  $0.05
  /M tokens
  
  Donc il n’y a rien de spécialement magique ou révolutionnaire
- Sonnet :
  Cache Read
  $0.30
  
  Gemini 3.5 flash :
  Cache Read
  $0.15
Le rapport qualité-prix est énorme
J’utilise GLM Coding Plan Max avec GLM 5.1 depuis un moment et je teste aussi DeepSeek V4 Pro depuis environ 3 semaines ; sur les tâches de code complexes, je le trouve meilleur que GLM 5.1
J’ai consommé 65 millions de tokens, et à ce tarif j’en ai eu pour 1,5 dollar, c’est vraiment peu cher
- J’ai l’impression que DeepSeek consomme bien plus de tokens que les autres modèles
Impressionnant
Avec cette baisse de prix, DeepSeek V4 Pro devient extrêmement bon marché par rapport aux autres modèles de sa catégorie
Si on regarde le prix par million de tokens de sortie, ça donne ceci

DeepSeek V4 Pro: $0.87

Qwen 3.7 Max: $7.50

Grok 4.3: $2.50

GLM 1.5: $3.08

Opus 4.7: $25.00

GPT-5.5: $30.00
- Si on tient compte du coût de lecture du cache, c’est en réalité encore moins cher
  Dans les workflows agentiques, ce coût peut dominer, et le coût de lecture du cache de DeepSeek est incomparablement bas
  On parle de $0.003626 par million de tokens, alors que le suivant le moins cher dans la liste est au-dessus de $0.2 par million
  On est presque sur un facteur 100
- La prochaine fois que quelqu’un dira « arrête de te plaindre des limites d’usage, ton abonnement fait déjà perdre de l’argent à l’entreprise », je lui enverrai ce commentaire
  Ça montre qu’il est possible de faire de l’inférence efficacement, à condition de ne pas simplement être autorisé à brûler de l’argent sans contrainte
- Ils ne dégradent pas non plus le modèle une fois l’abonnement pris
  Si, deux mois après l’abonnement, ils rendent Opus pire que GPT-3 pour économiser des coûts, peu importe qu’Opus ait été excellent au départ
- C’est GLM 5.1
Même en tenant compte de la réduction sur V4 Pro, V4 Flash offre toujours les meilleures performances par dollar, et il est même meilleur en performance globale sur les tâches agentiques et à fort usage d’outils
V4 Pro est plus intelligent sur l’inférence en one-shot, mais la différence de vitesse est importante
Si on combine performances, coût et vitesse, V4 Flash est de loin notre meilleur modèle flash du moment

Les données sont ici : https://gertlabs.com/rankings
- Dans mon cas d’usage, surtout pour de très gros travaux de résumé et d’extraction d’idées, il était nettement moins bon que Pro
Leur architecture MLA réduit le cache KV d’environ 5 à 13 fois par rapport à l’attention standard
Donc ce n’est pas seulement une guerre des prix pour gagner des parts de marché : le coût réel d’exécution de l’inférence est effectivement plus bas
- C’est aussi un game changer pour l’inférence locale
  Ça rend possibles de longs contextes, l’inférence par lots et le stockage disque du cache KV sur des plateformes grand public
- Oui
  Cette réduction était probablement une expérimentation de marché post-lancement pour vérifier l’efficacité du cache sur la nouvelle génération de modèles
Je m’inquiète davantage des fuites de données accidentelles avec des modèles hébergés en Chine qu’avec des modèles hébergés aux États-Unis
Par exemple dans le cas où un agent lirait un fichier env
Est-ce vraiment absurde de soupçonner que le gouvernement chinois soit plus susceptible que le gouvernement américain ou que des entreprises américaines de scanner toutes les conversations et de conserver les informations utiles ?

J’ai même hésité à écrire ce commentaire parce que ça peut paraître biaisé ou xénophobe
J’aimerais que quelqu’un me convainque que j’ai tort
Est-ce que quelqu’un connaît l’entreprise derrière l’hébergement de DeepSeek, ou son historique en matière de respect de la vie privée des données ?
- Ce n’est pas une inquiétude irrationnelle
  C’est pour cela que la plupart des entreprises américaines préfèrent AWS Bedrock ou les laboratoires d’IA, et demandent généralement des contrats sans conservation des données
  Mais le risque de fuite existe quel que soit l’endroit où c’est hébergé ; ce qui change surtout, ce sont les incitations
  
  Par exemple, les laboratoires scannent aussi toutes les conversations et entraînent sur les données qui ne sont pas protégées par des contrats entreprise ZDR
  Les autorités peuvent demander l’accès à toutes les données utilisateurs avec un mandat valide ou en situation d’urgence 1
  
  Si vous voulez essayer DeepSeek V4 en privé, vous pouvez regarder Tinfoil (tinfoil.sh)
  Ils hébergent tous les modèles dans des enclaves matérielles sécurisées vérifiables, pour rendre l’inférence privée de bout en bout
  Pour être transparent, je suis l’un des cofondateurs
  
  1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...
- Il suffit de passer par quelque chose comme Azure
  Ils hébergent le modèle complet et le proposent depuis les États-Unis
  Il y a sûrement d’autres fournisseurs de ce type
  
  C’est comme ça que nous l’utilisons et ça marche très bien
- Ça ne me surprendrait pas s’ils faisaient ça
  Et ça ne me surprendrait pas beaucoup plus si des modèles basés aux États-Unis faisaient la même chose pour d’autres gouvernements
  Je n’ai pas de grandes attentes en matière de confidentialité des données
  Microsoft coche toutes les cases côté entreprise, mais même Azure subit parfois des compromissions
- Je dirais que la probabilité n’est pas nulle
  Pékin pourrait décider à tout moment que DeepSeek est devenu trop puissant ou qu’il est devenu un produit d’exportation stratégique, et intervenir
  Rien ne garantit que ça ne soit pas déjà le cas
  
  Il y a déjà de nombreux rapports indiquant que des acteurs étrangers, pas seulement chinois, ont infiltré à grande échelle des réseaux critiques dans plusieurs secteurs américains, en attendant le bon moment pour les exploiter
  Les modèles de pointe constituent un vecteur d’attaque supplémentaire, et à bien y réfléchir, probablement bien plus facile à exploiter
  
  En réalité, cette possibilité existe avec n’importe quel modèle hébergé dans le cloud
  Que ce soit intentionnel de la part de l’entreprise qui fabrique le modèle, ou qu’un acteur malveillant exploite une faille, le risque existe de toute façon
- Je ne suis pas assez important pour que quelqu’un en Chine vienne me cibler personnellement
  Et DeepSeek doit conserver assez de confiance pour que les utilisateurs continuent à utiliser sa plateforme
  S’ils se comportaient comme un keylogger attaquant les portefeuilles crypto de tout le monde, cette confiance s’effondrerait
  
  Si je travaillais sur quelque chose que le gouvernement chinois juge stratégiquement important, évidemment que je m’en inquiéterais, mais ce n’est pas mon cas
  
  Ce qui m’inquiète davantage, c’est que les riches du secteur tech de ce pays me profilent massivement avec des LLM et construisent ici quelque chose d’encore plus dystopique que le système de crédit social réel ou imaginaire de la Chine
  Ceux qui essaient de vous convaincre, vous citoyen américain, que vous devez surtout craindre le gouvernement chinois sont probablement précisément les personnes dont il faut le plus se méfier
Si quelqu’un veut le brancher sur copilot, j’avais écrit il y a quelque temps un script proxy pour gérer la connexion, et ça peut être utile : https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...

DeepSeek pérennise la baisse de prix de V4 Pro

Critères de facturation

Modèles et prix

Modèles pris en charge

Endpoints et fonctionnalités

Contexte et limites de sortie

Prix par million de tokens

Ajustement de la remise DeepSeek-V4-Pro

Baisse du prix des accès au cache

Limites de concurrence

À lire aussi

3 commentaires

Réactions sur Hacker News