Claude Sonnet 5 dévoilé

(anthropic.com)

6 points par GN⁺ 2 시간 전 | 4 commentaires | Partager sur WhatsApp

Anthropic lance Claude Sonnet 5 le 30 juin 2026, avec l’objectif d’offrir des capacités d’exécution agentique proches de celles des modèles plus coûteux de la gamme Opus, au coût d’un modèle Sonnet
Par rapport à Sonnet 4.6, le modèle progresse en raisonnement, utilisation d’outils, codage et travail de connaissance ; le réglage de l’effort permet de choisir plus finement l’équilibre entre coût et performance selon les tâches
Dans les évaluations de sûreté, les comportements indésirables, hallucinations, flatteries, acceptations de requêtes malveillantes et vulnérabilités aux détournements par prompt injection étaient plus faibles que pour Sonnet 4.6, mais certains comportements non alignés étaient plus élevés que pour Opus 4.8 et Claude Mythos Preview
Il est proposé comme modèle par défaut dans Free et Pro, et disponible aussi dans Max, Team, Enterprise, Claude Code et Claude Platform ; le nom du modèle API est claude-sonnet-5
Sur Claude Platform, le prix est de 2 $ par million de tokens en entrée et 10 $ par million de tokens en sortie jusqu’au 31 août 2026, puis passera à 3 $ en entrée et 15 $ en sortie ; avec le nouveau tokenizer, le nombre de tokens pour une même entrée peut représenter environ 1,0 à 1,35 fois l’ancien volume selon le type de contenu

Un champ d’exécution agentique élargi au niveau Sonnet

Claude Sonnet 5 est conçu comme le modèle Sonnet le plus agentique à ce jour, avec pour objectif une exécution autonome d’un niveau qui nécessitait encore, il y a quelques mois, un modèle plus grand et plus coûteux
La planification, l’utilisation d’outils comme le navigateur et le terminal, ainsi que l’exécution autonome ont été améliorées afin d’être prises en charge par un modèle de la gamme Sonnet
Sonnet 3.5, 3.6 et 3.7 se sont imposés auprès des développeurs comme les premiers modèles de niveau Sonnet montrant de bonnes capacités de codage et d’utilisation d’outils ; par la suite, les progrès les plus marqués en capacités agentiques sont apparus dans les modèles de niveau Opus
Sonnet 5 réduit l’écart avec Opus 4.8 et offre, à un prix plus bas, des performances proches de celles d’Opus 4.8

Évaluations de performance et réglage de l’effort

Par rapport à Sonnet 4.6, Sonnet 5 progresse fortement dans les critères de performance agentique comme le raisonnement, l’utilisation d’outils, le codage et le travail de connaissance
Dans l’évaluation de recherche agentique BrowseComp et l’évaluation d’utilisation d’ordinateur OSWorld-Verified, il affiche des résultats systématiquement meilleurs que Sonnet 4.6
Dans les comparaisons par niveau d’effort, Sonnet 5 offre un éventail plus large de compromis coût-performance qu’Opus 4.8
- À effort intermédiaire, l’efficacité économique s’améliore nettement
- À effort élevé, il peut égaler les performances d’Opus 4.8 sur certaines tâches
Les utilisateurs peuvent ajuster le niveau d’effort entre Sonnet 5 et Opus 4.8 afin de choisir l’équilibre coût-performance adapté à leur projet

Modes de travail observés dans les premiers cas d’usage

Les partenaires ayant bénéficié d’un accès anticipé estiment que Sonnet 5 est nettement plus agentique que les précédents modèles Sonnet
Des cas ont été observés où il menait à terme des tâches complexes sur lesquelles les anciens modèles Sonnet s’arrêtaient en cours de route, et où il vérifiait ses propres résultats même sans demande explicite
Les workflows constatés couvrent à la fois des tâches de codage et hors codage
- Il gère du codage continu, l’utilisation d’outils et le débogage dans des tâches d’ingénierie logicielle en plusieurs étapes
- Il a mené à terme une tâche en deux étapes composée d’une mise à jour du niveau de comptes Salesforce et de l’envoi d’une annonce de lancement à des contacts d’entreprise
- Il a pris en charge de façon autonome plusieurs dizaines de pull requests réelles jusqu’à l’obtention de résultats testés et validés
- Dans une enquête sur un bug, il a réalisé en une seule fois l’écriture d’un test de reproduction, l’implémentation du correctif, le stash des changements et la vérification de l’absence de régression
- Il se montre efficace, dans du code brownfield, pour traquer les race conditions, les hidden tests et les véritables causes racines des échecs
Des gains de performance et de vitesse ont aussi été observés dans des tâches hors codage, comme la recherche et l’analyse juridiques, l’exploration de données live dans ClickHouse ou les workflows d’assurance de Pace

Évaluations de sûreté et restrictions en cybersécurité

Dans les évaluations de sûreté avant déploiement, Sonnet 5 affiche une amélioration globale de la sûreté par rapport à Sonnet 4.6
Sur le plan de la sûreté agentique, il résiste mieux aux requêtes malveillantes et aux tentatives de détournement par attaques de prompt injection
Par rapport à Sonnet 4.6, les taux d’hallucination et de flatterie sont plus faibles, et les audits comportementaux automatisés visant à détecter des comportements non alignés comme la coopération à des usages abusifs et la tromperie produisent également des scores plus faibles, donc des résultats plus sûrs
Toutefois, comparé à Opus 4.8 et Claude Mythos Preview, plus capables, le taux de certains comportements non alignés était légèrement plus élevé dans cette évaluation
Sonnet 5 n’a pas été entraîné intentionnellement pour les tâches de cybersécurité
- Il peut accomplir certaines tâches cyber courantes et non nuisibles
- Dans les évaluations de compétences cyber potentiellement dangereuses, comme le développement d’exploits logiciels, ses performances sont nettement inférieures à celles d’Opus 4.8 et Mythos 5
- Dans une évaluation de développement d’exploit pour des vulnérabilités du navigateur Firefox, il n’a pas réussi à créer un exploit entièrement fonctionnel, mais son taux de réussite partielle était légèrement supérieur à celui de Sonnet 4.6
Comme il est légèrement plus puissant que les modèles précédents sur ces tâches, il est lancé avec des garde-fous cyber activés par défaut
- Ils détectent et bloquent en temps réel les usages cyber dangereux
- Ce sont les mêmes garde-fous que ceux appliqués à Claude Opus 4.7 et 4.8
- Le niveau global de risque de Sonnet 5 en cybersécurité étant jugé faible, ces garde-fous sont moins stricts que ceux de Fable 5, qui bloquent un éventail plus large de tâches de cybersécurité
L’évaluation complète est disponible dans la Claude Sonnet 5 System Card

Disponibilité, prix et API

Claude Sonnet 5 est disponible dans tous les forfaits
- C’est le modèle par défaut des forfaits Free et Pro
- Il est accessible aux utilisateurs Max, Team et Enterprise
- Il est également proposé dans Claude Code et Claude Platform
Les développeurs peuvent utiliser claude-sonnet-5 via l’API Claude
Le prix de lancement sur Claude Platform est de 2 $ par million de tokens en entrée et 10 $ par million de tokens en sortie jusqu’au 31 août 2026
Ensuite, le prix standard passera à 3 $ par million de tokens en entrée et 15 $ par million de tokens en sortie
Afin de tenir compte de l’augmentation de la consommation de tokens aux niveaux d’effort élevés, les limites de requêtes sont relevées dans Chat, Cowork, Claude Code et Claude Platform
Sonnet 5 est une mise à niveau de Sonnet 4.6, mais utilise un tokenizer mis à jour
- Le traitement du texte a été modifié pour améliorer les performances
- Une même entrée peut être mappée vers environ 1,0 à 1,35 fois plus de tokens selon le type de contenu
- Le prix de lancement est fixé de manière à ce que la transition vers Sonnet 5 soit globalement neutre en coût

Mise à jour du graphique BrowseComp

Lors de l’édition du 30 juin 2026, le graphique coût-performance de l’évaluation BrowseComp a été mis à jour
Le graphique initial reposait sur des données issues d’une méthodologie plus simple, qui ne reflétait pas la méthodologie standard utilisée par Anthropic pour l’évaluation de recherche agentique, ce qui a conduit à sous-estimer les performances de Sonnet 5
Le graphique mis à jour est aligné sur la méthodologie standard et sur l’approche utilisée et discutée dans la system card de Sonnet 5
- Cette approche utilise un budget de 10 M de tokens, la compression et des appels d’outils programmatiques
Le texte explicatif environnant a également été mis à jour

4 commentaires

dhkd63 1 시간 전

Peut-être que je me suis habitué à opus4.8, ou que je n’avais pas utilisé Sonnet depuis un moment...
Aujourd’hui, j’ai utilisé Sonnet un court instant et j’ai été très déçu.
Par le passé, j’aurais peut-être été pleinement satisfait, mais il produisait pas mal d’hallucinations, plus que je ne l’aurais pensé.

sea715 1 시간 전

Donne-moi au moins fable...

seoseonyu 2 시간 전

Donnez-nous vite Fable... 😢😢

GN⁺ 2 시간 전

Avis sur Hacker News

En regardant le graphique du coût par tâche, on a l'impression qu'il ne faut pas utiliser Sonnet 5 au-delà du niveau d'effort moyen. À coût égal, Opus est toujours meilleur, donc si le niveau moyen de Sonnet 5 ne suffit pas, la conclusion semble être qu'il vaut mieux changer de modèle plutôt qu'augmenter le niveau d'effort
- C'est appréciable de publier ce genre d'information, mais il devient de plus en plus difficile de suivre. Je perds mon modèle mental de la performance réelle des différents modèles et niveaux d'effort, et de leur adéquation à chaque type de tâche
  En pratique, j'utilise simplement la valeur par défaut de Claude Code et cela fonctionne largement assez bien. En revanche, je me demande dans quelle mesure les autres utilisateurs expérimentent et optimisent ces réglages selon leur projet
- Il y a deux variables ici. Sur l'abonnement Claude.ai, Sonnet semble bien moins cher qu'Opus, et c'est sans doute pour cela qu'il y a eu pendant longtemps une barre d'usage réservée à Sonnet dans le palier Max
  Par ailleurs, pour certaines tâches, ce qui compte avant tout, c'est le volume pur de tokens en entrée. Par exemple, pour les tâches d'utilisation multimodale sur ordinateur, on ne peut pas rendre Opus plus efficace simplement en baissant le niveau de raisonnement, donc un modèle moins cher comme Sonnet est utile
- J'ai vu le même graphique, et la position de la courbe par rapport à Opus m'a assez surpris. Sonnet 5 donne l'impression de « et s'il y avait un niveau d'effort ultra-faible supplémentaire pour Opus ? »
- Pour nuancer, Sonnet est peut-être plus rapide. Il peut utiliser davantage de tokens sur une même tâche, donc ce n'est pas certain, mais dans un flux de travail synchrone et itératif, il pourrait abattre plus de travail
  Cela dit, en pratique, je passe tellement de temps à corriger les résultats produits par le modèle qu'un modèle plus lent mais plus intelligent réduit quand même le temps total
- Puisque c'est un modèle Sonnet, il est bien meilleur que Sonnet 4.6[0]. Il est plus intelligent, plus rapide et moins cher, mais je ne vois pas bien pourquoi l'utiliser à la place de Opus 4.8 low ou de GLM-5.2
  [0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
Je l'ai testé avec mon benchmark[0] : il est au niveau de GLM-5.2, coûte deux fois plus, mais il est aussi deux fois plus rapide
Ses faiblesses : 0/3 au quiz de culture générale, donc quasiment pas de connaissances intégrées ; 45/100 sur les tâches d'appels d'outils composites, avec des appels d'outils parfois erronés ; et 77 aux puzzles, avec des erreurs sur des tests du type station de lavage
[0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
- Dans ce benchmark, Gemini 3.5 Flash ressort comme le meilleur modèle, ce qui ne me paraît pas crédible
- Comme toujours, dire qu'il est plus rapide que GLM-5.2 n'a pas énormément de sens. GLM-5.2 est servi par plusieurs fournisseurs, donc sa vitesse d'inférence peut beaucoup varier selon le fournisseur et le moment
- D'après une comparaison imparfaite où j'ai utilisé les deux pour la planification et l'exécution, GLM5.2 est trop impulsif et trop pressé de faire quelque chose, au point de créer parfois des problèmes. Par exemple, il essaie de déployer ou d'utiliser git alors qu'il ne devrait pas
  À l'inverse, Sonnet 5 m'a paru de loin le plus paresseux des modèles Claude que j'ai testés, et après ne pas avoir ajouté le complément de plan demandé, il a menti en affirmant l'avoir fait. D'après l'analyse[0], cela n'a aucune valeur pour moi, même si ce sera peut-être différent pour d'autres. Fable était clairement bien meilleur
  [0]: https://artificialanalysis.ai/models/claude-sonnet-5
Sur plusieurs benchmarks, dès qu'on dépasse le niveau d'effort moyen, le coût par tâche dépasse celui d'Opus, donc je comprends mal pourquoi utiliser cela au lieu de simplement prendre Opus avec un faible niveau d'effort
La seule raison qui me vient à l'esprit, c'est de ne plus avoir de crédits Opus. Il y a bien sûr les cas d'usage facturés via l'API, mais même là, j'aurais tendance à prendre Opus en faible niveau d'effort
- Ces derniers temps, je passe de plus en plus de temps à empêcher Opus de faire des choses stupides, et je dois sans cesse lui dire de ne pas tout compliquer inutilement
  On dirait que les modèles sont davantage optimisés pour extraire plus d'argent des utilisateurs et des entreprises que pour résoudre les problèmes. Je lui ai donné des instructions claires pour une tâche Python simple de 2 ou 3 lignes, et je ne comprends pas pourquoi Opus essaie de construire toute une bibliothèque
- Je pense que les benchmarks basés sur des tâches précises reflètent mal beaucoup de cas d'usage agentiques du quotidien. Si l'on peut traiter les tâches individuellement et effacer le contexte à chaque fois, ce type d'efficacité avec Opus en faible niveau d'effort est possible
  Mais lorsqu'on résout de vrais problèmes en itérant et en explorant, la longueur du contexte augmente progressivement, et c'est souvent là qu'Opus devient cher
- Les anciens modèles Opus finiront probablement par être retirés, et avec le temps, celui-ci deviendra le modèle le moins cher. C'est ainsi qu'ils augmentent les prix aujourd'hui
- Si l'on regarde les benchmarks de codage agentique aux pages 117 à 118 de la system card[0], même au faible niveau d'effort, les performances semblent meilleures que n'importe quel niveau de Sonnet 4.6, tout en restant assez peu coûteuses. Donc Opus peut convenir comme exécutant pour les tâches qu'il a lui-même planifiées
  [0] https://www.anthropic.com/claude-sonnet-5-system-card
- La vitesse est une raison majeure. Il y a des moments où il faut terminer rapidement des tâches simples, et attendre 30 à 60 secondes qu'Opus commence à réfléchir devient vraiment trop lent
Claude Sonnet 5 aurait été rendu plus agentique que n’importe quel Sonnet jusqu’ici. Il planifie, utilise des outils comme le navigateur ou le terminal, et peut agir de manière autonome à un niveau qui, il y a encore quelques mois, aurait nécessité un modèle plus gros et plus coûteux
J’ai surtout fait du développement assisté par agent plutôt que du développement entièrement piloté par agent, donc j’ai davantage utilisé Sonnet 4.6 qu’Opus. Mais cette annonce ne m’inspire pas vraiment de manière positive. Plus les modèles sont optimisés pour un développement totalement agentique, plus ils ont tendance à être moins bons pour l’assistance au développement, et à en faire trop même avec des consignes très strictes et très précises
Ces dernières semaines, je bascule de plus en plus vers K2.7 Code et GLM-5.2. Pour un usage d’assistance, c’est souvent largement suffisant, et c’est très rapide et peu coûteux
- Il y a clairement une opportunité pour l’une de ces entreprises, pour reprendre l’expression, d’investir du temps dans un modèle adapté au développement assisté par agent
  Le problème, c’est que les gens à l’intérieur de ces entreprises semblent croire que, dans un ou deux ans, plus personne ne travaillera de cette façon
- En ce moment, j’utilise Kimi K2.6. Je ne peux pas encore utiliser la 2.7 via le circuit d’approbation de l’entreprise, mais c’est correct quand il sait déjà ce que j’essaie de faire et que je veux avancer en découpant le processus
  Il faut un peu plus le corriger qu’Opus. Mais le vrai critère, c’est la différence entre « il faut lire chaque ligne » et « on peut lui faire confiance sans lire chaque ligne », et pour moi aucun modèle n’a atteint le second niveau, et ça ne semble pas près d’arriver. Ce n’est pas aussi bon qu’Opus pour brainstormer une architecture puis la transformer en code, mais ce n’est pas toujours le problème, et si j’en ai besoin je peux utiliser Opus
  Grâce à ça, même les semaines avec beaucoup de code, je ne me heurte pas au plafond de dépenses dès le mercredi ou le jeudi, et j’ai de la marge toute la semaine. Cela dit, en pratique, j’ai vraiment l’impression de devoir tenir K2.6 bien davantage qu’Opus. Il faut faire beaucoup plus attention pour qu’il ne parte pas immédiatement dans une tâche de codage par inférence alors qu’on veut simplement poser une question. J’utilise les deux en mode planification, mais avec K2.6 il faut être plus défensif qu’avec Opus
- Pendant un temps, je suis passé entièrement à des modèles locaux tournant sur un Mac Studio M1 avec 64 Go de mémoire. Et dans les rares cas où Qwen3.6 quantifié en local me paraît insuffisant, je passe par Openrouter pour utiliser Kimi, GLM, Deepseek et autres pour une fraction du prix d’Anthropic
- J’ai à peu près le même ressenti et une situation similaire. Le plus gros avantage quand j’utilise Sonnet, c’est le temps de réponse
- Ça vaudrait peut-être le coup d’essayer un modèle OpenAI comme GPT 5.5. Il respecte mieux les consignes et les limites fixées dans le prompt, et donne l’impression d’être un assistant agentique plus compétent que les modèles Claude, sans perte d’intelligence
  L’essentiel de mon travail ressemble davantage à de l’ingénierie agentique qu’à un mode où l’on lance quelque chose puis on l’oublie. Je reste impliqué pendant la phase de planification, je passe en revue les résultats, et je pose bien plus de questions à l’agent que la plupart des gens. L’approche qui me convient le mieux, c’est de l’utiliser comme un mode « autocomplétion surpuissante » où je définis les exigences, le périmètre, la conception, et parfois même les frontières de modules spécifiques, puis je lui fais remplir les blancs
Le rapport performance/prix semble aussi moins bon que pour GLM 5.2. Et pourtant GLM 5.2 n’a « que » 744B paramètres
La system card dit que « dans la découverte de vulnérabilités CyberGym, Claude Sonnet 5 est moins compétent que Sonnet 4.6, et bien moins compétent qu’Opus 4.8 et Mythos 5 »
Elle dit aussi : « Comme pour les autres évaluations de cette section, ces résultats ont été obtenus avec toutes les protections désactivées. Exécuté avec les mesures d’atténuation par défaut activées, Sonnet 5 a obtenu un score de 0 sur CyberGym »
- J’ai réécrit un texte avec GLM-5.2 et Sonnet 4.6, et comme les grands modèles de langage sont non déterministes, les résultats étaient complètement différents. GLM-5.2 a produit beaucoup d’erreurs subtiles qu’il a fallu corriger à la main, tandis que Sonnet, au second tour, a trouvé et corrigé toutes les erreurs
  C’était similaire pour la planification et le code. GLM-5.2 a l’air bon « sur le papier », mais en usage réel le résultat était différent
  Je ne cherche pas à défendre Claude ou GLM-5.2. Depuis que j’utilise des grands modèles de langage tous les jours depuis novembre 2022, ce que j’ai compris, c’est que les tests généraux doivent être vérifiés sur ses propres projets. Il n’existe pas de « modèle unique qui domine tout », et il faut trouver un modèle précis dans une botte de foin de milliers de modèles
  Les benchmarks sont utiles, mais ils ressemblent de plus en plus aux chiffres de consommation dans les publicités automobiles. La consommation réelle varie selon les gens
- Enfin une stratégie commerciale viable. Vendre à bas prix des singes de code ignorants en sécurité, puis facturer un tarif premium aux agents capables de nettoyer ce chaos
- Ce n’est dirigé contre personne en particulier, mais j’aimerais qu’un jour la qualité des discussions sur HN dépasse ce type de comparaison de base. On a l’impression de revoir les mêmes commentaires à chaque fil de sortie de modèle
  Du genre : « le modèle X est meilleur ou pire de Y % que Claude Z sur tel benchmark T », « ça ne veut rien dire, c’est optimisé pour le benchmark », « inutilisable pour le code du quotidien ou le travail agentique, la sensation est complètement différente », « c’est presque pareil et bien moins cher, donc je l’utilise sans hésiter », « les différences de performance à la marge font que le faible coût des modèles ouverts ne compense pas la perte de productivité, donc ce n’est pas justifié »
  Je suis un client mécontent d’Anthropic, et je soutiens vraiment les modèles ouverts et l’intelligence non fermée. Mais je ne sais plus comment sortir de cette répétition, devenue un mème, du discours autour des sorties de modèles. Je ne suis pas non plus quelqu’un qui conçoit des grands modèles de langage ou des benchmarks, et j’apprécie sincèrement les efforts faits pour apporter de l’information, même si ce n’est pas parfait. J’ai l’impression que la plupart des gens qui lisent régulièrement les commentaires sur ce genre d’annonce ressentent la même chose
Claude Sonnet 5 a décrit son propre pélican comme une oie
« Une oie blanche fait du vélo, avec une aile tendue vers l’avant tenant le guidon, sur un fond blanc ordinaire avec une ligne de sol brune »
https://simonwillison.net/2026/Jun/30/claude-sonnet-5/
- C’est peut-être le pire pélican produit récemment par un grand modèle de langage
  En revanche, GLM 5.2 a dessiné un pélican SVG entièrement animé, superbe et autonome
  https://simonwillison.net/2026/Jun/17/glm-52
Aujourd’hui, j’ai utilisé un peu Sonnet 5 par accident, et pour le développement logiciel il m’a semblé nettement moins bon que Opus 4.8
Je me demande si une paranoïa excessive autour de la cybersécurité finit par pousser le modèle à générer du code moins sûr. S’il est capable d’écrire du code sécurisé, cela veut bien dire qu’il comprend quelque chose à la cybersécurité, et on pourrait aussi considérer qu’avec ces connaissances il serait capable de pirater les banques du monde entier
- Sur les modèles de génération d’images, la censure de la nudité a fini par créer toutes sortes de problèmes dans la représentation de l’anatomie. J’ai l’impression que des modèles de ce type pourraient avoir des problèmes similaires en matière de sécurité
- C’est peut-être même le but
J’attendais pas mal ce modèle, donc sur trois projets différents, j’ai demandé aux planificateurs Opus d’utiliser Sonnet à la place des sous-agents Opus pour m’aider plus vite à expérimenter des noyaux HPC. Mais pas une seule ligne de code n’a été écrite, et les Sonnet tournaient en rond en gaspillant juste des tokens
Je ne me souviens même pas de la dernière fois où ce genre de chose m’était arrivé avec Opus dans ma base de code. Je suis en train de revenir en arrière
- Ce genre de chose est déjà arrivé lors de sorties de nouveaux modèles. Quand Opus 4.7 est sorti, il est aussi resté plus de 20 minutes sur « en cours de traitement », donc j’ai simplement tout arrêté et attendu le lendemain
  Le problème s’est résolu de lui-même
Le point important, c’est ça : « Sonnet 5 est une mise à niveau de Sonnet 4.6, mais utilise un tokenizer mis à jour qui modifie la manière dont le modèle traite le texte afin d’améliorer les performances. Cela ressemble au changement de tokenizer introduit dans Claude Opus 4.7. La contrepartie, c’est qu’une même entrée peut être mappée sur davantage de tokens. Selon le type de contenu, on est approximativement entre 1,0 et 1,35x. Le prix d’introduction a été fixé de façon à rester globalement neutre en coût lors du passage à Sonnet 5 »
- Donc après la période de lancement, cela veut dire que le prix de Sonnet 5 sera réglé pour coûter 100 à 135 % de plus ?
- « Il y a deux façons d’augmenter les prix. (1) Augmenter le prix par token ou (2) augmenter le nombre de tokens générés à la place des utilisateurs. Nous promettons de ne pas faire (2) de manière malveillante. Promis. »