1 points par GN⁺ 4 시간 전 | 1 commentaires | Partager sur WhatsApp
  • Le prix de l’API DeepSeek-V4-Pro est officiellement maintenu à un quart du tarif initial, même après la fin de la promotion de réduction de 75 %
  • La facturation est basée sur un prix par million de tokens, et l’utilisation des tokens d’entrée et de sortie est directement déduite du solde
  • Les modèles pris en charge sont DeepSeek-V4-Flash et DeepSeek-V4-Pro, tous deux compatibles avec le mode non-réflexif et le mode réflexif, ce dernier étant activé par défaut
  • Pour les deux modèles, la longueur de contexte est de 1M, la sortie maximale est de 384K, et les limites de concurrence diffèrent : 2500 pour Flash, 500 pour Pro
  • Le prix des accès au cache en entrée pour tous les modèles a été abaissé à un dixième du prix de lancement, avec une application à partir du 26 avril 2026 à 12:15 UTC

Critères de facturation

  • L’unité de prix correspond à un tarif par million de tokens, les tokens étant la plus petite unité de texte reconnue par le modèle, qui peut être un mot, un nombre ou un signe de ponctuation
  • La base de facturation est le volume total de tokens d’entrée et de tokens de sortie du modèle
  • Le coût est calculé selon nombre de tokens × prix et est directement déduit du solde rechargé ou du solde de crédit
  • Si un solde rechargé et un solde de crédit sont tous deux disponibles, le solde de crédit est utilisé en priorité
  • Les prix des produits peuvent évoluer, et DeepSeek se réserve le droit de les ajuster
  • Il est recommandé de recharger en fonction de l’usage réel et de vérifier régulièrement les prix les plus récents sur cette page

Modèles et prix

  • Modèles pris en charge

    • DeepSeek-V4-Flash et DeepSeek-V4-Pro sont proposés
    • Les deux modèles prennent en charge le mode non-réflexif et le mode réflexif, ce dernier étant activé par défaut
    • Les noms de modèles deepseek-chat et deepseek-reasoner seront abandonnés à l’avenir
    • Pour des raisons de compatibilité, deepseek-chat correspond au mode non-réflexif de deepseek-v4-flash, et deepseek-reasoner au mode réflexif de deepseek-v4-flash
  • Endpoints et fonctionnalités

  • Contexte et limites de sortie

    • La longueur de contexte est de 1M
    • La sortie maximale est de 384K

Prix par million de tokens

Élément DeepSeek-V4-Flash DeepSeek-V4-Pro
Tokens d’entrée, cache hit $0.0028 $0.003625
Tokens d’entrée, cache miss $0.14 $0.435
Tokens de sortie $0.28 $0.87
Limite de concurrence 2500 500
  • Ajustement de la remise DeepSeek-V4-Pro

    • Le prix de DeepSeek-V4-Pro est affiché avec une réduction de 75 %
    • Le prix des tokens d’entrée avec cache hit passe de $0.0145 à $0.003625
    • Le prix des tokens d’entrée avec cache miss passe de $1.74 à $0.435
    • Le prix des tokens de sortie passe de $3.48 à $0.87
    • Même après la fin de la promotion de réduction de 75 % le 31 mai 2026 à 15:59 UTC, le prix de l’API DeepSeek-V4-Pro est officiellement ajusté à un quart du tarif initial
  • Baisse du prix des accès au cache

    • Le prix des accès au cache en entrée pour tous les modèles a été abaissé à un dixième du prix de lancement
    • Cet ajustement tarifaire s’applique à partir du 26 avril 2026 à 12:15 UTC
  • Limites de concurrence

    • La limite de concurrence de DeepSeek-V4-Flash est de 2500
    • La limite de concurrence de DeepSeek-V4-Pro est de 500
    • Les détails sur les limites de concurrence sont disponibles dans Rate Limit & Isolation

1 commentaires

 
GN⁺ 4 시간 전
Réactions sur Hacker News
  • Si DeepSeek lance son propre agent de code, je pourrais commencer à utiliser principalement ses modèles
    Ils semblent continuer à faire les choses « dans le bon sens » : open source des modèles, publications de recherche, maintien de prix bas

    • On peut utiliser V4 Pro dans Claude Code 1
      Je l’ai essayé moi-même et j’ai été impressionné

    • Ça marche aussi très bien avec OpenCode
      Mon équipe se heurte souvent à la limite de 5 heures d’un autre service par abonnement, donc avoir DeepSeek en secours est plutôt appréciable
      J’ai juste crédité 50 dollars, et j’ai l’impression que ça ne diminuera jamais

      Ça ne remplace pas encore complètement les modèles de pointe, mais comme solution de secours c’est clairement excellent

    • Je ne suis pas sûr que DeepSeek ait vraiment besoin de proposer jusqu’à un agent de code
      Il suffit de brancher le modèle sur n’importe quel agent de code existant
      Personnellement, je préfère Pi, mais chacun peut utiliser ce qui lui convient

    • J’ai commencé à tester les modèles chinois sur ma base de code au début de cette semaine
      Pour l’instant, j’ai surtout regardé la classification d’issues, la correction automatique de bugs, l’analyse de logs, etc., et j’ai comparé DeepSeek, Kimi, GLM, Qwen et MiMO à GPT-5.5 high, le tout exécuté dans le harnais Pi sans installation

      Pour l’instant, Kimi et MiMO me semblent les plus prometteurs
      Je n’ai pas encore fait assez de tests pour être rigoureux, mais ma première impression est que, pour les tâches quotidiennes classiques en production, ces modèles ne sont peut-être pas aussi en retard que ce que beaucoup imaginent

      En revanche, ils ont davantage tendance à « travailler plus dur qu’intelligemment » : ils arrivent au même résultat plus lentement et en consommant plus de tokens, mais à un prix bien plus bas

    • Je préférerais que les agents de code soient dans une certaine mesure indépendants des fournisseurs de modèles
      Les fournisseurs changent trop souvent la qualité, les fonctionnalités et les prix, donc je n’ai pas envie de devoir aussi changer d’agent à chaque fois

      J’espère que la situation va un peu ralentir et se stabiliser
      Pas forcément tout de suite, mais ce serait bien qu’on y arrive

  • Si vous n’avez pas encore essayé DeepSeek V4, vous ratez vraiment quelque chose
    C’est incroyablement bon pour ce prix

    La chaîne de pensée de DeepSeek est vraiment fascinante à lire
    OpenCode ne l’affiche pas, mais si vous la lisez directement, vous pourriez être surpris de voir à quel point ce modèle est sous-estimé

    Mon usage des modèles est très faible, mais je paie régulièrement DeepSeek directement pour les remercier d’avoir mis les modèles en open source et pour montrer mon soutien à cette orientation que je considère comme un bien social global

    • C’est bon et peu cher, mais si vous lancez un sujet politique, des règles de censure ou assimilées peuvent se déclencher
      J’ai vu le raisonnement se dérouler puis, soudain, tout s’effacer et le modèle proposer de passer à un autre sujet sans aucune explication
      Il a aussi déjà affiché un message très générique sur les médias d’information au service du peuple

      Dans les deux cas, la demande n’avait rien de sensible, d’illégal ou de subversif, donc ça m’a surpris
      Mais le sujet était ne serait-ce qu’un peu politique, et ça a suffi
      La censure occidentale est généralement plus subtile, donc c’était à la fois glaçant et étrangement rafraîchissant

    • Oui, le modèle est vraiment bon
      J’utilise Claude au travail et DeepSeek à titre personnel, et c’est le seul modèle qui n’essaie pas activement de me ruiner

    • J’aime V4 Pro pour certaines tâches, mais pour le code, V4 Flash m’a plutôt impressionné
      Il est concis, va droit au but, fait peu d’erreurs et il est assez rapide

    • Dans le CLI opencode, on voit les traces de raisonnement
      C’est peut-être un problème de configuration

    • On peut activer et désactiver l’affichage du raisonnement dans opencode

  • Ce prix est suspect tant il est bas
    Héberger le même modèle chez d’autres fournisseurs coûte bien plus cher 0
    Donc soit DeepSeek peut l’héberger beaucoup moins cher que les autres, soit son modèle économique est différent, et je penche pour la seconde option
    D’autant plus que leur politique de confidentialité 1 dit qu’ils peuvent utiliser les données personnelles, y compris les « User Input », pour « l’amélioration et le développement du service, l’entraînement et l’amélioration technologiques »

    • C’est peut-être une question idiote, mais quand je regarde OpenRouter, j’ai l’impression que DeepSeek n’est vraiment disponible qu’aux États-Unis, à Singapour et en Chine
      Ça semble pourtant être une offre tellement évidente pour des fournisseurs européens ou occidentaux
      Je suis convaincu que ce serait un bond bien plus important que Mistral

      J’aimerais essayer ces modèles, mais je préfère éviter les fournisseurs qui entraînent sur mes données ou les stockent au-delà des obligations légales standard

    • Plusieurs facteurs entrent en jeu
      Côté efficacité de la stack d’inférence, beaucoup de fournisseurs prennent du sglang / vllm / trtllm sur étagère et espèrent le meilleur, mais l’équipe DeepSeek est connue pour pousser les limites de l’optimisation

      sglang et vllm sont d’excellents logiciels, mais si l’on regarde l’attention creuse de DeepSeek (DSA), elle a été introduite il y a 1,5 an (https://arxiv.org/abs/2512.02556) et a été utilisée dans DeepSeek 3.2, GLM 5 et DeepSeek V4
      Ce n’est que maintenant que les grands moteurs d’inférence commencent lentement à l’optimiser : (https://github.com/sgl-project/sglang/issues/19380 https://github.com/sgl-project/sglang/pull/22851 etc.)
      Bien sûr, DS V4 ajoute aussi des optimisations architecturales par-dessus la DSA, et il faudra encore du temps pour que les moteurs d’inférence open source puissent en tirer pleinement parti

      Sur le plan de la confidentialité, le pari est que des gens paieront un surcoût pour une inférence hébergée hors de Chine
      C’est particulièrement vrai parce que DeepSeek indique de manière transparente qu’il utilise les données API pour améliorer ses modèles

      Il y a aussi d’autres facteurs comme l’échelle — très importante en MoE —, la fiabilité et une forme douce de dépendance des clients entreprise

      Il y a probablement aussi une forme de collusion implicite
      Si l’on regarde le prix de GLM 5 et GLM 5.1, leur coût d’exécution est le même, mais 5.1 est un bien meilleur modèle, et comme Z.AI a augmenté son prix, les fournisseurs ont eux aussi appliqué un tarif plus élevé à 5.1

    • Ils vendent clairement à perte
      Mais après tout, pourquoi pas
      Gagner des parts de marché en absorbant des pertes n’est pas un monopole réservé aux États-Unis

    • Vous ne connaissez peut-être pas assez bien le fondateur de DeepSeek, Liang Wenfeng
      Il est aussi le fondateur de High-Flyer Quant

  • Je suis encore plus curieux à propos du cache
    Il est écrit que « sur tous les modèles, le prix en cas de hit du cache d’entrée a été abaissé à 1/10 du prix de lancement, et cet ajustement de prix s’applique à partir du 26/04/2026 à 12:15 UTC »

    Il n’y a pas de date de fin
    Actuellement, DeepSeek V4 Flash est à 2 % du prix d’entrée, et avec ce nouveau tarif V4 Pro on tombe à 0,8 %, ce qui est extrêmement bas face à la concurrence et affecte même l’économie unitaire, donc je pensais que ce serait temporaire

    Pour V4 Pro, le coût effectif avec cache est d’environ 0,04 $ par million de tokens d’entrée (selon les métriques OpenRouter : https://openrouter.ai/deepseek/deepseek-v4-pro)
    C’est bien moins cher que les petits modèles de la concurrence

    • Le cache KV de DeepSeek V4 est très efficace grâce à une architecture d’attention creuse fortement compressée
      DeepSeek V3.2, qui n’utilise que la DSA, est pourtant un modèle plus petit, mais il consomme 10 fois plus de mémoire que DS V4 Pro sur une fenêtre de contexte de 1 million

      En outre, l’API DeepSeek a un très bon taux de hit du cache
      À charge équivalente, les grands fournisseurs occidentaux d’inférence qui proposent des modèles à poids ouverts ont un taux de hit du cache KV d’environ 50 %, alors que l’API DS tourne autour de 80 %

    • Le grand point fort de DeepSeek V4, c’est que la taille du cache KV a énormément diminué

    • Flash en soi n’est pas un modèle particulièrement compétitif, et son prix est dans la même fourchette que d’autres modèles du marché
      Le concurrent le plus direct de Flash est probablement quelque chose comme ceci

      GPT 5.4 mini

      Cache Read
      $0.075
      /M tokens

      Gemini 3 flash:

      Cache Read
      $0.05
      /M tokens

      Donc il n’y a rien de spécialement magique ou révolutionnaire

    • Sonnet :
      Cache Read
      $0.30

      Gemini 3.5 flash :
      Cache Read
      $0.15

  • Le rapport qualité-prix est énorme
    J’utilise GLM Coding Plan Max avec GLM 5.1 depuis un moment et je teste aussi DeepSeek V4 Pro depuis environ 3 semaines ; sur les tâches de code complexes, je le trouve meilleur que GLM 5.1
    J’ai consommé 65 millions de tokens, et à ce tarif j’en ai eu pour 1,5 dollar, c’est vraiment peu cher

    • J’ai l’impression que DeepSeek consomme bien plus de tokens que les autres modèles
  • Impressionnant
    Avec cette baisse de prix, DeepSeek V4 Pro devient extrêmement bon marché par rapport aux autres modèles de sa catégorie
    Si on regarde le prix par million de tokens de sortie, ça donne ceci

    DeepSeek V4 Pro: $0.87

    Qwen 3.7 Max: $7.50

    Grok 4.3: $2.50

    GLM 1.5: $3.08

    Opus 4.7: $25.00

    GPT-5.5: $30.00

    • Si on tient compte du coût de lecture du cache, c’est en réalité encore moins cher
      Dans les workflows agentiques, ce coût peut dominer, et le coût de lecture du cache de DeepSeek est incomparablement bas
      On parle de $0.003626 par million de tokens, alors que le suivant le moins cher dans la liste est au-dessus de $0.2 par million
      On est presque sur un facteur 100
    • La prochaine fois que quelqu’un dira « arrête de te plaindre des limites d’usage, ton abonnement fait déjà perdre de l’argent à l’entreprise », je lui enverrai ce commentaire
      Ça montre qu’il est possible de faire de l’inférence efficacement, à condition de ne pas simplement être autorisé à brûler de l’argent sans contrainte
    • Ils ne dégradent pas non plus le modèle une fois l’abonnement pris
      Si, deux mois après l’abonnement, ils rendent Opus pire que GPT-3 pour économiser des coûts, peu importe qu’Opus ait été excellent au départ
    • C’est GLM 5.1
  • Même en tenant compte de la réduction sur V4 Pro, V4 Flash offre toujours les meilleures performances par dollar, et il est même meilleur en performance globale sur les tâches agentiques et à fort usage d’outils
    V4 Pro est plus intelligent sur l’inférence en one-shot, mais la différence de vitesse est importante
    Si on combine performances, coût et vitesse, V4 Flash est de loin notre meilleur modèle flash du moment

    Les données sont ici : https://gertlabs.com/rankings

    • Dans mon cas d’usage, surtout pour de très gros travaux de résumé et d’extraction d’idées, il était nettement moins bon que Pro
  • Leur architecture MLA réduit le cache KV d’environ 5 à 13 fois par rapport à l’attention standard
    Donc ce n’est pas seulement une guerre des prix pour gagner des parts de marché : le coût réel d’exécution de l’inférence est effectivement plus bas

    • C’est aussi un game changer pour l’inférence locale
      Ça rend possibles de longs contextes, l’inférence par lots et le stockage disque du cache KV sur des plateformes grand public
    • Oui
      Cette réduction était probablement une expérimentation de marché post-lancement pour vérifier l’efficacité du cache sur la nouvelle génération de modèles
  • Je m’inquiète davantage des fuites de données accidentelles avec des modèles hébergés en Chine qu’avec des modèles hébergés aux États-Unis
    Par exemple dans le cas où un agent lirait un fichier env
    Est-ce vraiment absurde de soupçonner que le gouvernement chinois soit plus susceptible que le gouvernement américain ou que des entreprises américaines de scanner toutes les conversations et de conserver les informations utiles ?

    J’ai même hésité à écrire ce commentaire parce que ça peut paraître biaisé ou xénophobe
    J’aimerais que quelqu’un me convainque que j’ai tort
    Est-ce que quelqu’un connaît l’entreprise derrière l’hébergement de DeepSeek, ou son historique en matière de respect de la vie privée des données ?

    • Ce n’est pas une inquiétude irrationnelle
      C’est pour cela que la plupart des entreprises américaines préfèrent AWS Bedrock ou les laboratoires d’IA, et demandent généralement des contrats sans conservation des données
      Mais le risque de fuite existe quel que soit l’endroit où c’est hébergé ; ce qui change surtout, ce sont les incitations

      Par exemple, les laboratoires scannent aussi toutes les conversations et entraînent sur les données qui ne sont pas protégées par des contrats entreprise ZDR
      Les autorités peuvent demander l’accès à toutes les données utilisateurs avec un mandat valide ou en situation d’urgence 1

      Si vous voulez essayer DeepSeek V4 en privé, vous pouvez regarder Tinfoil (tinfoil.sh)
      Ils hébergent tous les modèles dans des enclaves matérielles sécurisées vérifiables, pour rendre l’inférence privée de bout en bout
      Pour être transparent, je suis l’un des cofondateurs

      1 https://cdn.openai.com/trust-and-transparency/openai-law-enf...

    • Il suffit de passer par quelque chose comme Azure
      Ils hébergent le modèle complet et le proposent depuis les États-Unis
      Il y a sûrement d’autres fournisseurs de ce type

      C’est comme ça que nous l’utilisons et ça marche très bien

    • Ça ne me surprendrait pas s’ils faisaient ça
      Et ça ne me surprendrait pas beaucoup plus si des modèles basés aux États-Unis faisaient la même chose pour d’autres gouvernements
      Je n’ai pas de grandes attentes en matière de confidentialité des données
      Microsoft coche toutes les cases côté entreprise, mais même Azure subit parfois des compromissions

    • Je dirais que la probabilité n’est pas nulle
      Pékin pourrait décider à tout moment que DeepSeek est devenu trop puissant ou qu’il est devenu un produit d’exportation stratégique, et intervenir
      Rien ne garantit que ça ne soit pas déjà le cas

      Il y a déjà de nombreux rapports indiquant que des acteurs étrangers, pas seulement chinois, ont infiltré à grande échelle des réseaux critiques dans plusieurs secteurs américains, en attendant le bon moment pour les exploiter
      Les modèles de pointe constituent un vecteur d’attaque supplémentaire, et à bien y réfléchir, probablement bien plus facile à exploiter

      En réalité, cette possibilité existe avec n’importe quel modèle hébergé dans le cloud
      Que ce soit intentionnel de la part de l’entreprise qui fabrique le modèle, ou qu’un acteur malveillant exploite une faille, le risque existe de toute façon

    • Je ne suis pas assez important pour que quelqu’un en Chine vienne me cibler personnellement
      Et DeepSeek doit conserver assez de confiance pour que les utilisateurs continuent à utiliser sa plateforme
      S’ils se comportaient comme un keylogger attaquant les portefeuilles crypto de tout le monde, cette confiance s’effondrerait

      Si je travaillais sur quelque chose que le gouvernement chinois juge stratégiquement important, évidemment que je m’en inquiéterais, mais ce n’est pas mon cas

      Ce qui m’inquiète davantage, c’est que les riches du secteur tech de ce pays me profilent massivement avec des LLM et construisent ici quelque chose d’encore plus dystopique que le système de crédit social réel ou imaginaire de la Chine
      Ceux qui essaient de vous convaincre, vous citoyen américain, que vous devez surtout craindre le gouvernement chinois sont probablement précisément les personnes dont il faut le plus se méfier

  • Si quelqu’un veut le brancher sur copilot, j’avais écrit il y a quelque temps un script proxy pour gérer la connexion, et ça peut être utile : https://gist.github.com/g023/c2bb7b540ffe64cee76023f18f6f936...