DeepSeek V4 Pro dépasse GPT-5.5 Pro en précision

(runtimewire.com)

7 points par GN⁺ 2026-06-09 | 3 commentaires | Partager sur WhatsApp

Dans une comparaison en face à face sur 4 tâches textuelles générées à la volée afin d’empêcher toute préparation préalable, DeepSeek V4 Pro a obtenu 38,0 points, contre 33,0 pour GPT-5.5 Pro
Les deux modèles ont été solides, mais DeepSeek s’est montré plus rigoureux, plus littéral et plus fiable sous contrainte, tandis que GPT-5.5 Pro a perdu des points à cause de modifications improvisées inutiles
L’avantage technique le plus net est apparu sur la tâche python-log-redactor, avec un traitement correct des motifs imbriqués via une expression régulière unique et une fonction de remplacement, garantissant le bon ordre de priorité sans omission
Sur la tâche de suivi des instructions, DeepSeek a exécuté exactement les exigences du prompt, tandis que GPT-5.5 Pro a ajouté des éléments non demandés comme la passation entre équipes et l’escalade
Il a été jugé plus mesuré, plus précis et plus fiable pour les travaux de précision où de petits écarts peuvent entraîner un échec réel

Résultats de l’évaluation globale

Au score, DeepSeek V4 Pro l’emporte 38,0 à 33,0, avec des éléments suffisants pour justifier l’écart
Sur l’ensemble des tâches évaluées, le modèle A (DeepSeek) s’est montré plus rigoureux et littéral, ainsi que plus stable face aux contraintes
- Le modèle B (GPT-5.5 Pro) est excellent, mais présente une tendance un peu trop marquée aux modifications improvisées
La conclusion finale est qu’il s’agit d’un modèle plus mesuré, plus précis et plus fiable pour les tâches où de petits écarts mènent directement à des échecs concrets

python-log-redactor (tâche d’écriture de code)

Tâche consistant à implémenter en Python 3 la fonction redact_log(line: str) -> str, où les e-mails doivent être masqués en [EMAIL], les IPv4 en [IP], et les identifiants de ticket au format INC- + 6 chiffres en [TICKET]
- Tout le reste du texte doit être conservé tel quel, les IP invalides comme 999.1.2.3 ne doivent pas être masquées, et l’on suppose qu’il n’y a pas d’entrée multiligne
Vainqueur : DeepSeek V4 Pro — il traite les motifs imbriqués avec une expression régulière unique et une fonction de remplacement, ce qui garantit le bon ordre de priorité des substitutions sans omission
- GPT-5.5 Pro sépare les expressions régulières, créant un risque d’erreur d’ordre, et son expression régulière pour les e-mails présente des défauts tels que l’absence de frontière de mot et du sur-appairage

vendor-delay-update (tâche de rédaction d’un message professionnel)

Tâche consistant à rédiger une mise à jour de situation qu’un VP des opérations doit envoyer aux responsables d’entrepôts régionaux, pour signaler que la livraison de 420 unités de remplacement est repoussée du 12 au 19 mai à cause d’un échec de certification des batteries chez le fournisseur de scanners code-barres North Quay Devices
- Les scanners de réserve ne suffisent que pour Memphis et Reno, tandis que Tulsa et Allentown devront partager les appareils pendant une semaine
- Il faut suspendre les revérifications de stock non essentielles, prioriser le picking d’expédition, demander un rapport quotidien des manques avant 16 h, heure locale, avec un ton calme, responsable et pragmatique, sur 140 à 180 mots
Vainqueur : DeepSeek V4 Pro — il mentionne explicitement au VP, comme demandé dans le prompt, le « rapport quotidien des manques avant 16 h, heure locale », tout en conservant un ton calme, responsable et pragmatique
- GPT-5.5 Pro ajoute des détails non demandés comme la passation entre équipes et l’escalade, et change le destinataire pour « Operations Planning », s’écartant légèrement des consignes, même si les deux productions restent de haute qualité et dans la limite de mots

meeting-notes-summary (tâche de résumé et génération de JSON)

Tâche consistant à lire des notes de réunion puis à produire un résumé en 2 phrases ainsi qu’un objet JSON contenant les clés launch_date, owner, blocked_by, open_questions (tableau) et decisions (tableau)
- Les notes portent sur le projet de refonte du portail locataire Cedar Lane et incluent l’approbation juridique, l’état d’avancement du front-end, une volonté de lancement au 2026-03-18, un problème de blocage des ID de reçu ACH dupliqués dans le sandbox financier, ainsi que la décision de retirer le mode sombre
Vainqueur : DeepSeek V4 Pro — il respecte exactement le schéma demandé et fournit un résumé en 2 phrases avec des champs JSON du bon type
- GPT-5.5 Pro proposait un bon résumé, mais incluait un texte conditionnel dans launch_date et traitait blocked_by, qui attend une valeur unique, comme un tableau, ce qui viole la structure

messy-orders-to-json (tâche de normalisation de données)

Tâche consistant à convertir des lignes de commande désordonnées en JSON valide sous forme de tableau d’objets respectant un schéma donné, avec obligation de préserver l’ordre d’entrée
- Il faut normaliser priority en true/false, convertir les dates de livraison manquantes comme none, tbd ou - en null, supprimer les espaces en début et fin de valeur, et traiter des éléments séparés par ;, chacun au format SKU xQTY
Résultat : égalité — les deux modèles produisent un JSON valide, conservent l’ordre d’entrée, respectent exactement le schéma et normalisent correctement les valeurs de priority et de ship_by
- Il n’y a pas de différence substantielle en qualité ou en précision, mais cette égalité sur une tâche de nettoyage simple ne compense pas les erreurs sur les tâches de précision

Méthode de test

4 tâches textuelles ont été générées à la volée pour l’affrontement, afin qu’aucun des modèles ne puisse se préparer à l’avance
La notation a été effectuée tâche par tâche par grok-4-1-fast-non-reasoning
Le score final est de 38,0 pour DeepSeek V4 Pro et 33,0 pour GPT-5.5 Pro

Spécifications des modèles

OpenAI: GPT-5.5 Pro
- Modèle haut de gamme optimisé pour le raisonnement approfondi et la précision, destiné aux workloads complexes et à haut risque
- Contexte de plus de 1 M de tokens (entrée 922K, sortie 128K), prise en charge des entrées texte et image, conçu pour la résolution de problèmes de longue haleine, le coding agentique et l’exécution précise de workflows multi-étapes
- Prix : entrée $30.00 / sortie $180.00 (par million de tokens), contexte 1.1M, cutoff 2025-12-01
DeepSeek: DeepSeek V4 Pro
- Grand modèle Mixture-of-Experts avec 1,6 T de paramètres au total et 49 B de paramètres actifs, prenant en charge un contexte de 1 M de tokens
- Destiné au raisonnement avancé, au code et aux workflows agentiques de longue haleine, avec de solides performances sur les benchmarks de connaissances, de mathématiques et d’ingénierie logicielle
- Basé sur la même architecture que DeepSeek V4 Flash, avec l’introduction d’un système d’attention hybride pour un traitement efficace des textes longs
- Prend en charge les niveaux de raisonnement high et xhigh, xhigh correspondant au raisonnement maximal, adapté aux workloads complexes comme l’analyse d’une base de code complète, l’automatisation multi-étapes et la synthèse d’informations à grande échelle
- Prix : entrée $0.435 / sortie $0.870 (par million de tokens), contexte 1M

3 commentaires

emptybynature 2026-06-09

J’ai utilisé DeepSeek V4 Pro longtemps pour divers usages, et au final, le plus efficace reste d’utiliser DeepSeek comme agent d’implémentation et GPT-5.5 comme planificateur et orchestrateur. Les tokens de DeepSeek étant de loin moins chers, il est aussi très efficace et performant pour faire de la synthèse documentaire ou de l’audit avec un modèle flash.

shakespeares 2026-06-09

J’ai du mal à y croire, franchement..

GN⁺ 2026-06-09

Avis sur Hacker News

Quatre expériences bricolées à la va-vite ne disent presque rien des capacités d’un modèle quel qu’il soit
L’article ressemble aussi à un clickbait généré par IA un peu creux, visant à faire la promo du modèle ou à lancer une polémique
Des formulations du paragraphe d’ouverture comme « where it matters », « cleanly » ou « is still strong » sont vagues, et il manque des explications concrètes du type : DeepSeek a produit un résultat plus concis dans 3 des 4 tests. Une étoile
- On dirait une incompréhension du rôle du lede
  Selon Merriam-Webster, un lede est « l’introduction d’un article d’actualité destinée à inciter le lecteur à lire l’article en entier »
  On peut préférer un style plus sobre, mais critiquer une introduction simplement parce qu’elle essaie d’atteindre son objectif n’est pas vraiment justifié
  https://www.merriam-webster.com/dictionary/lede
- Je n’ai pas envie de voir sur HN des articles générés par IA sur l’IA, sauf s’ils sont vraiment très bien écrits
- Trois résultats sur quatre, c’est clairement anecdotique, mais le résultat lui-même cadre assez bien avec des benchmarks de suivi d’instructions plus établis. Cela dit, DeepSeek V4 Pro n’y est pas premier
  https://artificialanalysis.ai/evaluations/ifbench
  L’article m’a semblé clair et plutôt équilibré. Le lede fait un peu slogan commercial, mais c’est souvent le cas, et le rejeter immédiatement juste parce qu’il « sonne comme un texte écrit par un LLM » me paraît être une réaction assez paresseuse
- Sur le marché automobile aussi, l’option optimale idéale se limite à un ou deux modèles, mais de nombreuses autres entreprises et modèles continuent à se vendre pour diverses raisons
  Cet article montre que DeepSeek peut rivaliser avec GPT 5.5 et parfois faire mieux. C’est aussi un signal assez important qu’il n’existe pas de moat défendable
- À propos des métriques du type « un pélican à vélo », personne ne dit que ce sont des expériences arbitraires et bancales de ce genre
Ces tests donnent de plus en plus l’impression d’être une perte de temps
Il y a désormais manifestement une forme d’intelligence. Essayer de la mesurer ainsi me paraît vain. Quand on achète un marteau dans une quincaillerie, on ne peut pas les classer selon « la qualité du produit fini fabriqué avec ce marteau », et c’est à peu près ce qu’on demande aujourd’hui aux évaluations de modèles
La prochaine magie viendra des harnais et environnements spécialisés par domaine. On prend volontairement un modèle un peu moins puissant pour faire apparaître les faiblesses de la manière dont le domaine est exposé au modèle. S’il reste de la marge en performance, la fiabilité du projet augmente fortement. Si un client se plaint d’un edge case précis, on peut faire passer uniquement ce scénario sur gpt5.5, mais si on utilise déjà 5.5, il n’y a plus nulle part où aller
- La formule « il y a manifestement une intelligence » ne me parle pas
  Je me demande si on utilise les mêmes modèles que les autres. Pour moi, les LLM donnent de bonnes réponses dans 80 % des cas, mais dans les 20 % restants ils échouent si lamentablement qu’il devient clair qu’ils n’ont pas d’intelligence
- D’accord. sonnet 4.6 me semble suffisant pour presque tout. Au-delà de ce niveau, l’orchestration paraît plus importante que le modèle lui-même
  Cela dit, les modèles continuent de surprendre chaque jour par toutes sortes d’hallucinations, de lacunes épistémologiques, de manque de bon sens et de non-respect des consignes
  Aujourd’hui, j’essayais de faire suivre à opus 4.8 un simple pattern d’architecture dans un contrôleur d’application Rails, et c’était comme arracher des dents à un requin
- Même si l’on dit qu’« il y en a manifestement », le simple fait qu’il faille déjà demander où elle se trouve, et qu’on ait vu des bots clairement non intelligents, impose de définir et d’étudier la localisation et la cause de l’intelligence
  C’est indispensable pour obtenir la garantie que l’intelligence n’apparaît pas par accident ou seulement en apparence, mais de manière cohérente et structurelle. Pour les usages légers, des outils légers ; pour les usages mission-critical, des outils certifiés
- Je ne vois pas pourquoi ce serait une perte de temps
  On commence à peine à entrer dans le détail du benchmarking des LLM, et il reste encore beaucoup de chemin. Cela dit, le fait que des LLM exécutés en local puissent obtenir des résultats comparables aux meilleurs modèles actuels est extrêmement intéressant
- La magie n’arrive pas dans les harnais et environnements spécialisés par domaine. Le cœur du sujet se joue dans l’entraînement et le reinforcement learning. Un harnais ne peut pas écraser le comportement sur lequel un modèle a été entraîné
  Si le modèle est entraîné à produire des sites CRUD et qu’on veut construire un site CRUD, un harnais peut être utile. Mais sinon, cela ressemble surtout à une perte de temps consistant à mieux remixer ce qui existe déjà
J’utilisais Claude, puis Opencode a été bloqué, donc au travail j’utilise GPT. À titre personnel, j’utilise Deepseek dans Opencode Go avec une formule à 10 $/mois, et franchement je sens à peine la différence
C’est à peu près aussi compétent, et il commet les mêmes types d’erreurs stupides que les deux autres n’arrêtaient pas de faire depuis mars. Vu le prix, j’en suis largement satisfait
- 95 % du temps, on n’a pas besoin des 5 % supplémentaires de rigueur qu’apportent les modèles frontier par rapport aux modèles chinois 10 à 100 fois moins chers
  Dans les 5 % restants, ils aident énormément sur les problèmes de raisonnement difficiles et évitent beaucoup de souffrance. Si seulement on pouvait prédire exactement quand ces 5 % supplémentaires seront nécessaires
- J’ai les deux abonnements, et je sens clairement que gpt est meilleur et plus constant. Cela dit, quand j’atteins la limite, ça ne me manque pas énormément
- Je ne sais pas ce que je fais mal. J’utilise Claude depuis 7 mois et j’ai parfois essayé des modèles comme deepseek ou kimi, mais rien n’est arrivé au niveau de Claude. Claude règle presque toujours le problème du premier coup
J’ai ajouté GPT 5.5 Pro à un benchmark de scan de vulnérabilités que j’ai construit moi-même (https://swelljoe.com/post/will-it-mythos/), et il a épuisé en cours de route la limite de budget de 100 $. DeepSeek V4 Pro a coûté environ 1 dollar pour l’ensemble du benchmark, tandis que GPT Pro a coûté en moyenne 22 $ par cas
GPT 5.5 Pro en a trouvé 2 sur les 4 qu’il a pu traiter avant d’épuiser le budget. Avec un budget illimité, il aurait peut-être été le meilleur, mais Opus 4.8, DeepSeek V4 Pro et MiMo 2.5 Pro ont trouvé 4 bugs sur 9. Opus coûtait un ordre de grandeur de moins que GPT 5.5 Pro, et environ 30 % de moins que GPT 5.5, tandis que DeepSeek et MiMo étaient deux ordres de grandeur moins chers, à environ 10 cents par cas
GPT Pro “mâche” relativement longtemps et beaucoup
Je ne vois pas de cas d’usage raisonnable qui justifierait d’utiliser GPT 5.5 Pro pour un coût d’environ 31 fois celui d’Opus, et je ne compte plus l’inclure dans mes benchmarks
À mesure que le coût des tokens devient un enjeu de plus en plus important, le fait qu’il existe des modèles dramatiquement moins chers que ceux des grands fournisseurs américains risque de poser problème à Anthropic et OpenAI. Payer une prime raisonnable pour le meilleur modèle en codage conversationnel, pourquoi pas, mais pour l’usage via API, l’itération sur les modèles, la comparaison entre modèles et l’évaluation des modèles peuvent être gérées par un harness et un framework de validation des réponses, sans monopoliser longtemps un humain, donc il est difficile de trouver une raison de payer de 10 à 200 fois plus que DeepSeek
- Ceci peut aussi être intéressant
  « 3,88 $, 690 003 591 tokens, 5 heures : Deepseek Pro et Flash utilisés ensemble pour faire de la rétro-ingénierie du système de licence de Teamspeak 3.13.8 »
  https://www.reddit.com/r/DeepSeek/comments/1txcfrh/with_388_...
- Je me demande s’il serait possible d’ajouter aussi GPT 5.5 non-pro à la comparaison. GPT Pro est une option du type « on peut brûler de l’argent de temps en temps pour un résultat un peu meilleur », pas une option que l’on s’attend à voir utilisée au quotidien. C’est probablement aussi une des raisons pour lesquelles il n’a pas été intégré à Codex
- Bon article. En revanche, je ne comprends pas bien pourquoi Sonnet fait moins bien que Haiku. Il me semble qu’il avait trouvé beaucoup d’autres bugs, même si ce n’étaient pas ceux recherchés
  9 bugs, cela semble un échantillon un peu faible pour établir un classement
  Cela dit, le classement ressemble globalement à ce à quoi on pouvait s’attendre
  Je me demande si pour Deepseek il s’agit bien de Pro, et non de Flash. J’utilise beaucoup Flash pour de petites tâches et c’est plutôt bon. C’est bien pour un usage « conversationnel », très rapide, et les petites tâches se terminent presque immédiatement
  Cela peut aussi valoir le coup pour explorer une grosse base de code. Je me demande si cela pourrait aussi convenir à des tâches de sécurité
- Beau travail. J’ai l’impression que l’intuition est la bonne. Une grande partie du Mythos moment peut probablement être reproduite avec un harness approprié et un modèle solide, sans trop de garde-fous idiots
  C’est aussi agréable de voir que des modèles bon marché s’en sortent bien
- DeepSeek, tu l’exécutes où ?
Je me demande si remplacer Claude Code par le tarif de l’API DeepSeek offrirait un meilleur rapport qualité-prix que le forfait Max à 100 $ que j’utilise actuellement.
Je n’atteins la limite de 5 heures qu’une fois tous les quelques jours, et même la limite hebdomadaire n’est atteinte qu’un ou deux jours avant la réinitialisation en cas d’usage vraiment agressif. À part le fait de ne pas être bloqué par les limites, je ne pense pas que mon volume d’utilisation augmenterait énormément.
Je reste aussi un peu réticent à l’idée d’envoyer mon travail vers un labo placé sous un gouvernement hostile aux États-Unis, donc je ne regarde pas uniquement le coût pur, mais ma question porte ici sur l’aspect financier.
- Cela dépend de ce qu’on entend par « rapport qualité-prix ». Les modèles à poids ouverts ne sont pas meilleurs qu’OpenAI/Claude. En revanche, ils sont bien moins chers et les limites sont bien plus élevées, donc on peut leur faire faire davantage pour moins d’argent.
  Tous les fournisseurs par abonnement offrent une meilleure valeur en limites par euro dépensé qu’Anthropic. GitHub est la seule exception, et là c’est de façon écrasante presque embarrassante tellement c’est cher et limité.
  (https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
  Si tu veux dire que tu ne veux pas utiliser un modèle créé par un labo non américain, alors tu seras contraint aux modèles américains, mais il existe aussi plusieurs grands labos aux États-Unis. Si ce qui t’inquiète est l’endroit où l’inférence est exécutée, OpenRouter permet d’utiliser des fournisseurs dans 12 pays, dont les États-Unis, et plusieurs fournisseurs par abonnement hébergent aussi dans plusieurs pays. Les options sont nombreuses.
- Je te recommande simplement d’essayer. Mets 5 $ sur deepseek.com, place cette configuration dans un script shell, puis exécute . ./deepseek-claude.sh et utilise claude comme d’habitude.
  export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
  export ANTHROPIC_AUTH_TOKEN= *** PUT YOUR DEEPSEEK KEY HERE***
  export ANTHROPIC_MODEL=deepseek-v4-pro
  export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro
  export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro
  export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash
  export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash
  export CLAUDE_CODE_EFFORT_LEVEL=max
  Au début, je l’ai utilisé pour de grosses tâches de lecture quand j’approchais de la limite. Honnêtement, ce n’est pas aussi bon que Claude, mais c’est bien moins cher et ça permet de continuer à travailler. Parfois, c’est aussi une bonne idée de demander à la fois à claude et à deepseek de relire le code et de proposer des améliorations, puis de comparer leurs réponses.
- J’utilise Claude avec un abonnement mensuel à 100 $. J’expérimente une configuration où Opus sert d’architecte, Sonnet d’implémenteur/ingénieur, et deepseek-pro de relecteur et testeur approfondi, et comme prévu ça marche plutôt bien.
  Si mon usage reste stable, je pense rétrograder l’abonnement à 20 $ par mois et mettre davantage d’argent dans DeepSeek.
  Dépôt de référence : https://github.com/aravindhsampath/agentic-template
- Le rendement par dollar est bien meilleur, et le rendement par heure est un peu inférieur.
  Comme toujours, chaque modèle bloque à des endroits différents. J’utilise surtout l’API DeepSeek v4 pour les expérimentations Cursor, l’exploration et la plupart des preuves de concept, mais je lui fais moins confiance qu’à OpenAI/Claude pour écrire du code de production. Parfois DeepSeek est très bon pour le débogage ou la planification, et parfois il bloque ou produit quelque chose de moins qualitatif. Cela dit, c’est aussi le cas des modèles OpenAI et Anthropic.
  Globalement, DeepSeek est tout à fait utilisable, mais il me semble un cran en dessous d’Opus 4.8 et de GPT 5.5. Je fais tourner tous les modèles avec le réglage de réflexion maximal.
- Si l’envoi de données à l’extérieur pour l’inférence t’inquiète, Fireworks fait partie des entreprises qui proposent des modèles ouverts avec de bonnes performances, tout en ayant une approche solide sur la conformité et l’absence de rétention des données. OpenCode prend en charge Fireworks et plusieurs autres fournisseurs, et Cursor utilise aussi Fireworks.
  Il n’y a pas l’avantage de lecture en cache ultra-bon marché qu’on a sur l’endpoint natif de DeepSeek, mais cela reste largement moins cher que la tarification de l’API Anthropic. Cela dit, il faut garder à l’esprit que tu ne paies pas l’API actuellement.
  Les remises sur lecture en cache de DeepSeek et Xiaomi sont liées au fait que les modèles de dernière génération utilisent moins d’espace de stockage KV, ce qui rend le caching moins cher. Aucun fournisseur d’inférence de modèles ouverts n’a choisi de s’aligner sur ces prix, ce qui dit probablement quelque chose sur la structure des coûts d’inférence, même si je ne sais pas exactement quoi.
  Je suis d’accord sur le fait que les meilleurs modèles ouverts ne sont pas encore au niveau frontière. La différence se verra probablement sur la planification à grande échelle, ou quand on ne donne qu’un cadre général en attendant beaucoup d’inférences. Mais pour coder à partir d’un plan concret, ils me semblent largement suffisants. Je ne les utilise qu’en dehors du travail, donc je n’ai pas d’expérience sur d’énormes bases de code, mais leur capacité à rassembler les informations nécessaires avant de se lancer me paraît correcte, donc j’imagine qu’ils iraient chercher avec grep si besoin.
  Il y a un indice agaçant : si on utilise beaucoup un abonnement individuel, cela revient bien moins cher que l’API. https://she-llac.com/claude-limits montre à quel point la discussion sur les coûts devient compliquée. Cela dit, je pense que ça vaut quand même le coup de jouer avec les modèles ouverts. C’est aussi un des éléments qui permettent de les traiter comme une technologie en soi, plutôt que comme un simple bundle de produits venant d’un petit nombre d’entreprises.
Une règle à garder en tête pour ce genre de grosse actualité : on annonce qu’un modèle est meilleur qu’un autre à partir d’un petit lot de tests, mais je doute qu’on puisse réellement reproduire ces résultats de manière cohérente.
Il y a en plus très peu de publication, donc il n’existe pratiquement aucun matériau permettant à d’autres de vérifier eux-mêmes les tests ou les jugements.
La plus grande valeur de DeepSeek V4 Pro, c’est son prix bas. Je ne m’attends pas à des performances très supérieures à GPT-5.5 ; même s’il était seulement au niveau de gpt-5.4, ce serait déjà un très bon modèle.
- Les attentes ne correspondent pas toujours à la réalité. Le mieux est de tester le modèle soi-même. Honnêtement, je n’utilise même pas Pro, j’ai seulement essayé Flash, et je fais du développement web en PHP.
Je n’ai presque jamais besoin d’un modèle meilleur que DSv4 Flash. Encore moins de la version Pro
Si l’on peut expliquer suffisamment bien le problème et la solution, Flash s’en charge tout simplement
Quand on n’arrive pas à décrire le problème de façon assez précise, ou qu’on n’a pas envie de le faire et qu’on ne peut expliquer que le résultat souhaité, j’ai l’impression qu’un modèle comme GPT 5.5 est nettement meilleur pour trouver de lui-même une solution solide
La différence de capacité entre les modèles est évidente, mais il est tout aussi clair que des modèles open weight plus petits sont déjà assez bons pour être d’une grande aide dans la plupart des tâches
J’utilise deepseek v4 pour son rapport performance/prix. Globalement, je le trouve inférieur à certains autres modèles, mais au final on peut faire fonctionner n’importe quel modèle si on lui donne les bons critères d’acceptation
Il suffit de fournir des spécifications détaillées et des tests, puis de lui donner le droit d’itérer jusqu’à ce que cela fonctionne correctement. Le one-shot est un mauvais indicateur de performance
- Je ne pense pas que tous les modèles convergent vers les critères d’acceptation. J’ai fait pas mal de modélisation à base d’agents ainsi que de modélisation scientifique dans ce domaine, et même lorsqu’il existe un critère de validation et une idée de la manière d’atteindre un point de convergence, cela ne signifie pas que la convergence se produise réellement
  On peut continuer à itérer dans l’espace informationnel et rester bloqué sans jamais trouver la solution voulue
  C’est utile, mais dans les cas d’échec il faut souvent qu’un humain intervienne pour orienter le processus ou corriger de force certains chemins afin d’arriver à une solution
DeepSeek V4 Pro utilisé avec reasonix est étonnamment bon marché et largement suffisant pour la plupart des tâches de programmation. Il est aussi assez différent de GPT 5.5 et d’Opus 4.8, si bien qu’il repère parfois des problèmes que les deux autres ne trouvent pas
À mon avis, il mérite sa place dans la boîte à outils
DeepSeek V4 Pro est excellent et absurdement bon marché, mais MiMo V2.5 Pro est sous-estimé. Le prix est le même, le prix du cache est plus bas, il est multimodal et se classe plus haut dans la plupart des benchmarks
Il en va de même pour la comparaison entre MiMo V2.5 et DeepSeek V4 Flash
- D’après https://news.ycombinator.com/item?id=48343690 au moment de la rédaction, le prix en cas de cache hit de MiMo V2.5 Pro était plus bas. Le texte original dit ceci
  Pour les modèles OSS, il peut y avoir de grandes différences selon le fournisseur utilisé, principalement à cause du taux de cache hit
  Model Cheapest effectiveInputPrice (Provider)
  MiMo-V2.5-Pro 0.3720 (Xiaomi)
  DeepSeek V4 Pro (Max) 0.0560 (DeepSeek)