Anthropic lance Claude Opus 4.8

(anthropic.com)

12 points par flyingsquirrel 2026-05-29 | 11 commentaires | Partager sur WhatsApp

Anthropic a lancé Claude Opus 4.8, une version améliorée de Claude Opus, son modèle haut de gamme. Basée sur la version 4.7 précédente, elle améliore les performances aux benchmarks et renforce les capacités de collaboration, tout en conservant le même prix.

Principales améliorations et caractéristiques

Amélioration des performances : le modèle affiche de meilleures performances que la version précédente et que des modèles concurrents comme GPT-5.5 dans le codage, les compétences agentiques, le raisonnement et les tâches de connaissance métier.
Renforcement de l’honnêteté (Honesty) : les problèmes où l’IA avance des affirmations sans fondement ou tire des conclusions hâtives ont été améliorés. Opus 4.8 signale lui-même les zones d’incertitude, et la probabilité de passer à côté de défauts dans le code a été réduite d’environ 4 fois par rapport au modèle précédent.
Capacités agentiques fiables : selon les premiers tests, son jugement s’est affiné dans l’exécution de tâches complexes à plusieurs étapes, et il montre de meilleures capacités de collaboration, notamment en détectant ses propres erreurs et en contestant un plan lorsqu’il n’est pas pertinent.
Efficacité des coûts : la vitesse du 'Fast Mode' a été multipliée par 2,5, et son coût est devenu 3 fois moins élevé que celui du modèle précédent.

Nouvelles fonctionnalités lancées en même temps

Dynamic Workflows : une fonctionnalité en research preview de Claude Code, qui permet d’exécuter des centaines de sous-agents en parallèle pour réaliser des tâches complexes comme la migration de grandes bases de code.
Effort Control : l’utilisateur peut choisir le niveau d’effort que Claude doit consacrer à une tâche. Avec un réglage élevé, il réfléchit plus en profondeur pour fournir des réponses de meilleure qualité ; avec un réglage faible, il répond plus rapidement.
Mise à jour de la Messages API : il est désormais possible d’inclure des entrées système dans le tableau de messages, ce qui permet de mettre à jour les instructions en cours de tâche sans casser le cache de prompt.

Feuille de route

Anthropic développe un modèle offrant des performances de niveau Opus à un coût plus faible et prépare, via Project Glasswing, une nouvelle classe de modèles dotés d’une intelligence supérieure à celle d’Opus (Claude Mythos). Le modèle est actuellement en phase de tests de sécurité auprès de certaines organisations et devrait être rendu public pour tous les clients dans les prochaines semaines.

Tarification et disponibilité

Mode standard : entrée $5 / 1M tokens, sortie $25 / 1M tokens (identique à Opus 4.7)
Fast Mode : entrée $10 / 1M tokens, sortie $50 / 1M tokens
Nom du modèle : claude-opus-4-8

11 commentaires

jimmy2056 2026-05-29

Comme il me pousse sans arrêt à bricoler, j’ai l’impression qu’un GPT simplement stable est préférable.
J’utilisais le Claude à 200 $, puis je suis passé à GPT 100 $ + Claude 100 $.
À partir du mois prochain, je ne compte plus mettre que 20 $ sur Claude. De toute façon, c’est juste pour de la revue, donc j’en ai beaucoup moins besoin, et si ça ne suffit pas, j’utilise aussi AGY en payant, donc je pourrai me servir de ça haha

slowandsnow 2026-05-30

Pourquoi Sonnet et Haiku sont-ils abandonnés ? Ils pensent trop uniquement à concurrencer GPT ?

jessyt 2026-05-29

La variante fast mode fonctionnerait 2,5 fois plus vite qu’auparavant, tout en coûtant 3 fois moins cher.

hhcrux 2026-05-29

J’ai rétrogradé mon abonnement Claude en Pro et j’utilise GPT en ce moment, mais comme j’avais un travail en cours, je lui ai demandé un avis : toute la limite d’utilisation Pro a fondu en 10 minutes et ça s’est arrêté.
Impressionnant, Claude !

dhkd63 2026-05-29

De mon côté, dans la matinée, j’utilise une compétence pour organiser des réunions ou des transcriptions enregistrées, et en la testant sur la 4.8 en passant l’effort sur ultracode, c’est franchement assez convaincant, plus que je ne le pensais. Personnellement, j’ai l’impression qu’elle montre un profil assez proche de codex. Côté efficacité des tokens, bon, ça reste encore en dessous de codex, mais la fenêtre de contexte est généreuse, et l’écran des sous-agents a aussi un peu changé à cause du workflow, et cette partie me plaît aussi.

dunward 2026-05-29

La 4.7 était franchement au point d’être difficile à utiliser dans la pratique, donc j’espère vraiment que la 4.8 se sera améliorée.

sixmen 2026-05-29

Je me demande aussi si ce n’est pas une sortie précipitée, vu le nombre de gens qui disent passer à ChatGPT/Codex...

sea715 2026-05-29

L'effet obtenu avec /effort est plutôt amusant lol

codufdl 2026-05-29

En regardant la traduction du commentaire Hacker News ci-dessous, je me suis demandé ce que signifiait l’expression « fruit à portée de main » et j’ai retrouvé l’original :
low hanging juice to squeeze out of smaller models << dans l’original,
on peut donc l’interpréter comme : il reste encore énormément de potentiel facile à extraire des modèles plus petits.

iolothebard 2026-05-29

Ça suffit, tu en as déjà bien profité, petit~

GN⁺ 2026-05-29

Avis de Hacker News

Il me semble que c’est la première fois qu’un modèle de pointe d’Anthropic reçoit une troisième hausse de version mineure
Ici, les incréments en 0,5 sont arrivés de façon non séquentielle et les bonds de performances étaient importants, donc je les considère comme des versions majeures. Par exemple Sonnet 3.5, Opus 4.5
Désormais, la lignée Opus 4.5 a eu des suites 4.6, 4.7, 4.8, et l’ampleur des améliorations de chacune semble, même d’après leurs propres affirmations, assez modeste
En ayant utilisé 4.6/4.7 moi-même, je n’arrive pas clairement à cerner quelles capacités se sont améliorées par rapport à mon souvenir de 4.5 ; l’impression est trop floue pour trancher
Il se peut que mes préférences soient déjà saturées, ou que le modèle soit devenu plus intelligent que moi au point que je ne perçoive plus les progrès ; à l’inverse, il est aussi possible que si je faisais tourner mon workflow actuel de 4.7 sur 4.5, je remarquerais immédiatement les améliorations progressives
La situation du labo semble aussi délicate. S’ils ont un produit plus puissant, j’aimerais qu’ils le publient pour qu’on puisse l’utiliser, mais si cette dynamique continue, même en présence de vraies améliorations, elles risquent d’être de moins en moins visibles pour l’utilisateur final, et de donner l’impression de remplacements fréquents sans véritable récompense
- Je ne serais pas surpris si la prochaine génération de modèles de pointe était la dernière
  Il reste encore plusieurs ordres de grandeur de fruits à portée de main à exploiter sur les petits modèles
  Il semble presque certain que, d’ici 2 à 3 ans, des modèles de 60 à 90B dépasseront le meilleur niveau actuel sur les tâches de code. Ce n’est pas encore figé dans la conception, et ce ne sera probablement pas facile
  En revanche, il est bien plus incertain qu’il soit vraiment utile de continuer à améliorer au point d’entraîner un modèle de 1.2T
  Côté raisonnement, si l’on se fie à la récente publication de GRAM, la marge d’amélioration en raisonnement qu’on peut ajouter à de petits modèles est peut-être de quatre ordres de grandeur
  Google, OpenAI et Anthropic peuvent entraîner en quelques jours un modèle basé sur GRAM de 30B, et ce modèle pourrait mieux faire de l’inférence locale que les meilleurs modèles actuels de plus de 1T paramètres. En le faisant ensuite grossir en quelques jours jusqu’à environ 600B MoE, il pourrait aussi rivaliser avec les meilleurs modèles en culture générale
  On ne peut pas entraîner aussi vite des modèles de 1T+ paramètres. L’ampleur réelle des gains apportés par GRAM reste la grande inconnue, mais il paraît peu probable qu’ils soient triviaux ou insignifiants
  Les grands modèles peuvent déjà pratiquement tout dire. Tant que ce sont des LLM, ils ne pourront pas tout avoir juste
  Il ne semble pas y avoir énormément de marge supplémentaire à tirer de Gemini pour qu’il donne correctement la taille de Ke$ha ou la date de la dernière incarcération de Brittney Spears
- 4.7 a été la première version pour laquelle, dans la plupart des usages, il fallait revenir à 4.6. J’espère que 4.8 corrigera ça
- Je me demande si certains ont ressenti une amélioration significative ou visible dans leur workflow de programmation entre 4.5 et 4.7
  Personnellement, j’ai eu l’impression que les gains de productivité depuis la sortie de 4.5 venaient davantage des améliorations du harnais et de la fenêtre de contexte passée de 200k à 1M que du modèle lui-même. C’était le cas dans cc, cursor cli, codex, opencode, etc.
  L’intelligence « pure » du modèle, ou sa capacité à prendre de bonnes décisions, me semble stagner depuis 4.5. 4.6 s’est peut-être un peu amélioré, mais c’était difficile à distinguer des effets d’apprentissage en contexte avec une fenêtre de 1M ; et 4.7, pour moi et mes collègues, a au contraire donné l’impression d’un recul du jugement, avec des décisions plus mauvaises et plus paresseuses de façon constante
- Des sorties incrémentales plus fréquentes servent peut-être aussi à déployer de nouvelles fonctionnalités qu’Anthropic utilise pour contrôler ses coûts et ajuster sa consommation de ressources
  J’imagine que derrière les nouvelles options de contrôle visibles par l’utilisateur final, il existe des sous-contrôles internes bien plus fins, permettant des méta-ajustements selon les types d’utilisateurs
  Je parle d’un contrôle plus fin de l’effort, de contrôles de vitesse comme « dynamic workflow » ou « fast mode ». Présentés comme des fonctionnalités utilisateur, mais qui ressemblent aussi à des leviers backend pour arbitrer entre coût, marge, ARR, croissance et rétention des utilisateurs afin d’atteindre les indicateurs clés des rapports trimestriels après l’IPO
- Dans nos tests, 4.5/4.6 étaient à peu près équivalents. Opus 4.7 est plus intelligent, mais divers problèmes de personnalité le rendent difficile à utiliser en production
  Jusqu’ici, Opus 4.8 semble aller dans la même direction. Il est trop lent pour être utilisable, mais cela peut venir de problèmes de rollout au jour de la sortie. Les tests complets d’Opus 4.8 sont en cours
  Les données sont ici : https://gertlabs.com/rankings
L’idée que « les utilisateurs percevront Opus 4.8 comme une amélioration modeste mais perceptible par rapport à la version précédente » est rafraîchissante
J’ai aussi constaté qu’on pouvait désactiver adaptive thinking dans l’interface web, ce qui est une bonne chose. Il y avait souvent des cas où le thinking ne fonctionnait pas et où la sortie du modèle devenait catastrophique
Heureux qu’on puisse enfin le désactiver. Ce serait un peu embarrassant si on avait toujours pu le faire
- Ce bouton a probablement toujours existé, mais le désactiver ne donne pas vraiment le comportement souhaité. Cela désactive complètement le thinking lui-même
- C’est rafraîchissant, mais pour le coup cette formulation est peut-être même en dessous de la réalité
  Je regarde surtout la recherche web, et Opus 4.7 était en recul par rapport à Opus 4.6 sur BrowseComp, comme en usage réel
  Opus 4.8 est bien meilleur que 4.7 ou 4.6, et la recherche web est l’un des cas d’usage clés d’un chatbot
- Je me demande si ces petites sorties servent à habituer les utilisateurs à un cycle de mises à jour plus progressif
  Du genre : les autres fournisseurs de modèles font une grosse mise à jour tous les x mois, alors que nous faisons des mises à jour progressives tous les x/2 mois
- En passant du modèle 4.6 à 4.8 extra, j’ai cru tomber sur un faux bug en désactivant Adaptive, mais après avoir réessayé, cela semble fonctionner comme prévu
  Ce qui m’importe davantage, c’est la façon dont CC réagit aux flags liés au thinking, « réservés » à 4.6 ; pour l’instant, il ne semble pas écraser ma configuration
- J’espérais une meilleure interface web. Sur le plan des valeurs, je préfère Anthropic à OpenAI, donc j’aimerais utiliser leur produit, mais le mode thinking de ChatGPT était bien meilleur que claude.ai
  J’espérais que ce changement les amènerait à un niveau comparable, mais après essai, ce n’est toujours pas le cas
  Sur des questions factuelles simples auxquelles ChatGPT ferait juste une recherche pour vérifier les faits avant de répondre, Claude, même avec le nouveau modèle et thinking high, commence par « Bonne question ! » puis invente une réponse de toutes pièces. Contrairement à GPT, il ne reconnaît pas tout seul qu’une recherche est nécessaire, et il faut lui dire explicitement de rechercher même pour des faits de base
La partie Claude Mythos Preview, qui évoque le « projet de lancer un nouveau type de modèle doté d’une intelligence supérieure à Opus », semble plus intéressante que la sortie de 4.8
Quelques organisations l’utilisent dans le cadre du Project Glasswing pour des tâches de cybersécurité, et il est dit qu’un modèle de ce niveau nécessitera des garde-fous cyber plus stricts avant une mise à disposition générale
- Plus que « plus intéressant », beaucoup soupçonnent surtout qu’il s’agit du marketing typique de Dario, avec une sorte de mauvaise nouvelle auto-infligée du style « Mythos est trop dangereux pour qu’on puisse donner un accès au public »
  Le fait qu’une IPO approche se reflétera évidemment aussi dans ses déclarations publiques. Pour être juste, c’est aussi son rôle
  Il est aussi possible que la raison du retard du modèle ne soit pas « nous le rendons sûr », mais plutôt « nous ne savons pas comment l’héberger à grande échelle, ou de manière rentable »
  GPT 5.5 semblait déjà à peu près aussi compétent que Mythos pour trouver des vulnérabilités
  Enfin, les non-spécialistes sous-estiment énormément l’importance du harness dans les performances des modèles. OpenHands existait bien avant Claude Code, mais Claude Code a changé la donne grâce à un mode d’assistance astucieux. Mythos pourrait lui aussi être plus qu’un simple modèle
- J’ai l’impression qu’ils vont ainsi retirer, dans Claude Pro, l’accès au plus gros modèle. Pour utiliser un modèle plus gros qu’Opus, il faudra sans doute au minimum un abonnement Claude Max
- Plus intéressant encore, il y a la partie disant qu’ils « développent et lancent des modèles moins chers offrant beaucoup des capacités d’Opus »
  À l’heure actuelle, face aux modèles concurrents chinois, Sonnet et Haiku semblent assez en retrait en rapport qualité-prix
- Les notes de version d’Opus 4.7 disaient qu’ils avaient volontairement réduit ses capacités en cybersécurité https://www.anthropic.com/news/claude-opus-4-7
  Du coup, je me demande s’ils font la même chose avec Mythos, et si le Mythos que nous recevrons sera une version affaiblie sur ce point
  Plus précisément, j’ai l’impression qu’il y aura deux versions de Mythos, et que la plus inquiétante continuera d’exiger beaucoup de démarches administratives
- On dirait presque qu’à moins d’être milliardaire ou une entreprise valant plusieurs milliards de dollars, on n’aura droit qu’à quelque chose comme une commande slash Claude Code limitée et bridée, du genre /mythos-security-audit
  J’espère que les gens ordinaires ne seront pas exclus de l’accès de cette manière
J’ai essayé de générer un pélican à vélo avec les niveaux thinking low et high
https://gist.github.com/simonw/68560eddb0b268a8417f80ceb7304dc6?permalink_comment_id=6172953#gistcomment-6172953
Le résultat en high est clairement meilleur. Contrairement à low, la forme du cadre du vélo est correcte
Le résultat d’Opus 4.7 pour comparaison est ici : https://gist.github.com/simonw/afcb19addf3f38eb1996e1ebe749c118?permalink_comment_id=6104087#gistcomment-6104087
- La forme du cadre du vélo n’est pas correcte. Le guidon est faux
  Le guidon ne fait pas tourner la roue avant, il fait tourner le cadre. Le guidon doit être monté dans l’axe de la roue avant
  J’espère que la 4.9 lira mon commentaire
- À chaque fois que quelqu’un parle de vélo, j’ai l’impression de partager ce lien, mais comme je ne l’ai pas encore vu dans ce fil, le voici
  https://www.gianlucagimini.it/portfolio-item/velocipedia/
  Les humains aussi peuvent être assez mauvais pour dessiner des vélos
- C’est agréable de voir qu’un casque est ajouté au niveau « high thinking ». C’est toujours un choix judicieux
- Voici les résultats du pélican pour tous les niveaux de thinking : low, medium, high, xhigh, max, dans cet ordre
  https://tools.simonwillison.net/markdown-svg-renderer#url=https%3A%2F%2Fgist.github.com%2Fsimonw%2Ffea4f7546626d627862dc241a4e3a86a
- Je ne vois pas comment on peut qualifier de « forme correcte » un cadre sans tube de direction
Mon benchmark de code préféré pour les modèles de pointe consiste à leur faire créer un jeu de stratégie en temps réel simple en un seul fichier (js/html/css).
Claude Code + Opus 4.8 en mode ultracode y est vraiment parvenu, et c’est le meilleur résultat jusqu’ici.
https://bsky.app/profile/senko.net/post/3mmwnrkwboc2v
Le prompt était : « Crée un jeu RTS simple mais fonctionnel, dans le style des anciens WarCraft, StarCraft et Command & Conquer. Le joueur doit pouvoir construire des bâtiments, produire des unités, récolter des ressources et révéler l’ensemble de la carte. Pas besoin d’IA ni de multijoueur. Utilise des graphismes simples mais agréables. Pas de son. Implémente le tout en HTML/CSS/JS et fais-en un fichier unique. L’usage de bibliothèques ou frameworks js/css tiers via CDN est autorisé. »
- Je me demande s’il existe un classement dédié à ce type de test. Si on donnait une note sur 100 à Opus 4.8 et à GPT 5.5, combien auraient-ils chacun ?
- Le code ressemble presque à du code minifié. Les noms de variables sont courts et la mise en forme semble chercher à minimiser les espaces. Est-ce qu’il l’a rédigé lui-même dans ce format compressé ?
- C’est utile d’avoir partagé le prompt aussi. Moi aussi, je faisais des tests en demandant à Claude de créer quelque chose de similaire.
  C’est intéressant que le style visuel ressemble assez à ce qu’il m’avait produit.
- J’aime bien ce benchmark. Si les résultats étaient publiés sur GitHub Pages, les gens pourraient essayer les jeux eux-mêmes.
- Je me demande où est stockée cette collection d’apps de benchmark. J’aimerais surtout voir les écarts de coût relatifs entre les modèles sur ce genre de cas d’usage.
Je me demande qui passe en revue ce genre de release pour cherry-pick des métriques arbitraires que les autres entreprises auraient probablement choisies pour faire bien paraître leurs modèles.
On a l’impression qu’il existe 8 millions de benchmarks. À chaque release, chaque modèle en choisit au hasard 5 à 10 et montre qu’il en a gagné tous sauf un, comme si on essayait de faire passer un cherry-pick aléatoire de benchmarks probablement benchmarkés à fond pour autre chose.
- https://arena.ai/leaderboard me semble être un fournisseur de classement assez correct.
  Je ne connais pas la méthodologie exacte, mais dans la programmation quotidienne avec les modèles Claude/GPT, leurs résultats correspondent à mon ressenti qualitatif.
- C’est intéressant qu’ils n’aient mis que 6 métriques cette fois. Opus 4.7 en avait 12, et 4.6 en avait 13.
  Parmi les métriques rapportées pour 4.7, ils ont retiré dans 4.8 BrowseComp, CharXiv Reasoning, CyberGym, GPQA Diamond, MCP Atlas, MMMLU et SWE-bench Verified. Les 4 dernières étaient presque toujours mentionnées dans les précédentes releases d’Opus.
- Tous les benchmarks doivent être pris avec recul dans une certaine mesure. Personnellement, je ne m’en sers pas beaucoup.
  Qu’est-ce que ça veut dire exactement, « 5 % plus intelligent » ? Mon expérience d’usage sera différente. Mieux vaut simplement l’essayer soi-même.
  Je ne pense pas qu’Anthropic vise en interne l’amélioration de benchmarks précis. C’est juste une manière de visualiser les progrès, et j’imagine qu’en interne ils ont des métriques bien plus complexes.
- À ce sujet, je me demande s’il existe un agrégateur de benchmarks qui regroupe tout dans une grande grille.
- Au moins, contrairement à OpenAI, ils ne font pas comme si la concurrence n’existait pas et montrent les modèles concurrents sur chaque benchmark.
D’après les premiers résultats d’ArtificialAnalysis.ai, GPT 5.5 semble encore offrir un meilleur rapport performance/prix.
OpenAI utilise environ 50 % de tokens de sortie en moins pour résoudre les tâches.
https://artificialanalysis.ai/?intelligence=coding-index&intelligence-efficiency=intelligence-efficiency-vs-output-tokens&models=gpt-5-5%2Cgpt-5-5-pro%2Cgemini-3-1-pro-preview%2Cclaude-opus-4-8%2Cclaude-opus-4-7%2Cnvidia-nemotron-3-super-120b-a12b
- J’essaie Codex à chaque nouvelle version, mais ça ne me convient pas. Donc ce n’est pas vrai pour tout le monde.
  Il faudrait que Claude devienne bien plus cher pour que je change.
J’ai été content de voir, à la page 102 de la system card, une évaluation de la maîtrise créative.
Dans notre travail, nous avons demandé à plusieurs IA de pointe de concevoir les API nécessaires, et nous avons comparé Opus 4.7, GPT-5.5 et d’autres. Opus 4.7 a proposé la conception d’API la plus créative et la plus intelligente, ce qui m’a agréablement surpris, surtout alors que GPT-5.5 est en tête sur plusieurs benchmarks de code.
J’ai réalisé qu’il n’existe pas de benchmark commun pour mesurer la « créativité » et l’« originalité », et qu’un tel benchmark pourrait à certains égards entrer en conflit avec l’IFBench habituel.
Pourtant, c’est une capacité très importante en conception de systèmes. Je suis content qu’Anthropic s’y intéresse, et j’aimerais aussi voir apparaître des benchmarks publics permettant la comparaison avec les autres modèles.
https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf
- D’après mon ressenti aussi, 4.6 me semble être un meilleur codeur que 4.7. 4.7 a une réflexion stratégique bien meilleure et conserve globalement un bien meilleur sens de l’architecture que 5.5.
  5.5 est bien meilleur en code que les deux, mais il coûte plus cher. Donc je fais faire la planification/l’architecture à 4.7, le code à 4.6, puis je demande à 5.5 de critiquer et corriger.
- J’ai une impression similaire. Pour les tâches de planification, stratégie et architecture, Opus 4.7 est bien meilleur que GPT-5.5.
  GPT ressemble à un robot qui reçoit des instructions et les exécute telles quelles, alors qu’Opus donne parfois de très bonnes idées et s’oppose même aux mauvaises, avec un ressenti presque humain.
  Du coup, pour l’instant, je sépare : Opus pour la planification/l’architecture/la stratégie, GPT pour le pur code.
  En coding agentique, le fait que GPT dispose d’une marge de tokens plus importante aide aussi.
Malheureusement, il semble que cette release backend ou la nouvelle version de CC ait complètement cassé Claude Code
L’erreur « impossible de modifier les thinking blocks » est en train de briquer les sessions longues : https://github.com/anthropics/claude-code/issues?q=is%3Aissue%20state%3Aopen%20blocks%20modified
- Ce problème survenait aussi sur la branche stable de 4.7
  J’ai réussi à m’en sortir en demandant à Claude de créer un script de récupération pour débloquer la session, mais cela peut varier selon l’environnement
  https://gist.github.com/robertfw/993dbe8643c4fbdf12005dff2eca1f90
- On dirait que les mises à jour de CC ne sont pas testées avant la sortie. Les équipes internes qui utilisent le produit ou les retours publics servent de tests
- Je ne sais pas si ça aidera, mais dans quelques cas légers, j’ai pu récupérer la session avec /rewind et continuer
- Pareil pour moi. Que ça arrive exactement au moment du déploiement d’un nouveau modèle ne donne pas une très bonne image
- Ça fait partie du charme de travailler avec Claude. À chaque nouvelle sortie, tout ce qui est à toi casse
Dans mes tests, Opus 4.8 est un peu moins bon, et presque 2 fois plus cher qu’Opus 4.7
J’ai été surpris de le voir échouer à un test d’extraction de données. Deux fois sur trois il trouve la bonne réponse, mais une fois il renvoie au hasard une valeur en null
Qu’il échoue davantage sur des tâches de trivia ou de connaissances métier très spécifiques, je peux encore le comprendre dans une certaine mesure. On dirait que les modèles sont de plus en plus entraînés pour des cas d’usage agentiques plutôt que pour l’intelligence générale
https://aibenchy.com/compare/anthropic-claude-opus-4-7-medium/anthropic-claude-opus-4-8-medium/
- J’ai l’impression que tout est multiplié par 2. Coût x2, temps de réponse moyen x2, tokens de raisonnement et de sortie x2
  Je suis en train de revérifier mon test harness, mais c’est le premier modèle qui se comporte comme ça, donc je pense que le problème vient peu probablement de mon côté
  Édit : le harness semble correct, et sur les tâches de pur code les performances sont identiques : https://i.snipboard.io/5xbpzY.jpg
- Le billet de blog ne dit-il pas que le prix est le même que pour 4.7 ?
  « Claude Opus 4.8 is available everywhere today. Pricing for regular usage is unchanged from Opus 4.7: $5 per million input tokens and $25 per million output tokens. Pricing for fast mode is $10 per million input tokens and $50 per million output tokens. »
  Je me demande d’où vient ce coût x2
- Les sorties de nouveaux modèles sont devenues une nouvelle façon d’augmenter les prix haha