Claude Sonnet 5 dévoilé
(anthropic.com)- Anthropic lance Claude Sonnet 5 le 30 juin 2026, avec l’objectif d’offrir des capacités d’exécution agentique proches de celles des modèles plus coûteux de la gamme Opus, au coût d’un modèle Sonnet
- Par rapport à Sonnet 4.6, le modèle progresse en raisonnement, utilisation d’outils, codage et travail de connaissance ; le réglage de l’effort permet de choisir plus finement l’équilibre entre coût et performance selon les tâches
- Dans les évaluations de sûreté, les comportements indésirables, hallucinations, flatteries, acceptations de requêtes malveillantes et vulnérabilités aux détournements par prompt injection étaient plus faibles que pour Sonnet 4.6, mais certains comportements non alignés étaient plus élevés que pour Opus 4.8 et Claude Mythos Preview
- Il est proposé comme modèle par défaut dans Free et Pro, et disponible aussi dans Max, Team, Enterprise, Claude Code et Claude Platform ; le nom du modèle API est
claude-sonnet-5 - Sur Claude Platform, le prix est de 2 $ par million de tokens en entrée et 10 $ par million de tokens en sortie jusqu’au 31 août 2026, puis passera à 3 $ en entrée et 15 $ en sortie ; avec le nouveau tokenizer, le nombre de tokens pour une même entrée peut représenter environ 1,0 à 1,35 fois l’ancien volume selon le type de contenu
Un champ d’exécution agentique élargi au niveau Sonnet
- Claude Sonnet 5 est conçu comme le modèle Sonnet le plus agentique à ce jour, avec pour objectif une exécution autonome d’un niveau qui nécessitait encore, il y a quelques mois, un modèle plus grand et plus coûteux
- La planification, l’utilisation d’outils comme le navigateur et le terminal, ainsi que l’exécution autonome ont été améliorées afin d’être prises en charge par un modèle de la gamme Sonnet
- Sonnet 3.5, 3.6 et 3.7 se sont imposés auprès des développeurs comme les premiers modèles de niveau Sonnet montrant de bonnes capacités de codage et d’utilisation d’outils ; par la suite, les progrès les plus marqués en capacités agentiques sont apparus dans les modèles de niveau Opus
- Sonnet 5 réduit l’écart avec Opus 4.8 et offre, à un prix plus bas, des performances proches de celles d’Opus 4.8
Évaluations de performance et réglage de l’effort
- Par rapport à Sonnet 4.6, Sonnet 5 progresse fortement dans les critères de performance agentique comme le raisonnement, l’utilisation d’outils, le codage et le travail de connaissance
- Dans l’évaluation de recherche agentique BrowseComp et l’évaluation d’utilisation d’ordinateur OSWorld-Verified, il affiche des résultats systématiquement meilleurs que Sonnet 4.6
- Dans les comparaisons par niveau d’effort, Sonnet 5 offre un éventail plus large de compromis coût-performance qu’Opus 4.8
- À effort intermédiaire, l’efficacité économique s’améliore nettement
- À effort élevé, il peut égaler les performances d’Opus 4.8 sur certaines tâches
- Les utilisateurs peuvent ajuster le niveau d’effort entre Sonnet 5 et Opus 4.8 afin de choisir l’équilibre coût-performance adapté à leur projet
Modes de travail observés dans les premiers cas d’usage
- Les partenaires ayant bénéficié d’un accès anticipé estiment que Sonnet 5 est nettement plus agentique que les précédents modèles Sonnet
- Des cas ont été observés où il menait à terme des tâches complexes sur lesquelles les anciens modèles Sonnet s’arrêtaient en cours de route, et où il vérifiait ses propres résultats même sans demande explicite
- Les workflows constatés couvrent à la fois des tâches de codage et hors codage
- Il gère du codage continu, l’utilisation d’outils et le débogage dans des tâches d’ingénierie logicielle en plusieurs étapes
- Il a mené à terme une tâche en deux étapes composée d’une mise à jour du niveau de comptes Salesforce et de l’envoi d’une annonce de lancement à des contacts d’entreprise
- Il a pris en charge de façon autonome plusieurs dizaines de pull requests réelles jusqu’à l’obtention de résultats testés et validés
- Dans une enquête sur un bug, il a réalisé en une seule fois l’écriture d’un test de reproduction, l’implémentation du correctif, le stash des changements et la vérification de l’absence de régression
- Il se montre efficace, dans du code brownfield, pour traquer les race conditions, les hidden tests et les véritables causes racines des échecs
- Des gains de performance et de vitesse ont aussi été observés dans des tâches hors codage, comme la recherche et l’analyse juridiques, l’exploration de données live dans ClickHouse ou les workflows d’assurance de Pace
Évaluations de sûreté et restrictions en cybersécurité
- Dans les évaluations de sûreté avant déploiement, Sonnet 5 affiche une amélioration globale de la sûreté par rapport à Sonnet 4.6
- Sur le plan de la sûreté agentique, il résiste mieux aux requêtes malveillantes et aux tentatives de détournement par attaques de prompt injection
- Par rapport à Sonnet 4.6, les taux d’hallucination et de flatterie sont plus faibles, et les audits comportementaux automatisés visant à détecter des comportements non alignés comme la coopération à des usages abusifs et la tromperie produisent également des scores plus faibles, donc des résultats plus sûrs
- Toutefois, comparé à Opus 4.8 et Claude Mythos Preview, plus capables, le taux de certains comportements non alignés était légèrement plus élevé dans cette évaluation
- Sonnet 5 n’a pas été entraîné intentionnellement pour les tâches de cybersécurité
- Il peut accomplir certaines tâches cyber courantes et non nuisibles
- Dans les évaluations de compétences cyber potentiellement dangereuses, comme le développement d’exploits logiciels, ses performances sont nettement inférieures à celles d’Opus 4.8 et Mythos 5
- Dans une évaluation de développement d’exploit pour des vulnérabilités du navigateur Firefox, il n’a pas réussi à créer un exploit entièrement fonctionnel, mais son taux de réussite partielle était légèrement supérieur à celui de Sonnet 4.6
- Comme il est légèrement plus puissant que les modèles précédents sur ces tâches, il est lancé avec des garde-fous cyber activés par défaut
- Ils détectent et bloquent en temps réel les usages cyber dangereux
- Ce sont les mêmes garde-fous que ceux appliqués à Claude Opus 4.7 et 4.8
- Le niveau global de risque de Sonnet 5 en cybersécurité étant jugé faible, ces garde-fous sont moins stricts que ceux de Fable 5, qui bloquent un éventail plus large de tâches de cybersécurité
- L’évaluation complète est disponible dans la Claude Sonnet 5 System Card
Disponibilité, prix et API
- Claude Sonnet 5 est disponible dans tous les forfaits
- C’est le modèle par défaut des forfaits Free et Pro
- Il est accessible aux utilisateurs Max, Team et Enterprise
- Il est également proposé dans Claude Code et Claude Platform
- Les développeurs peuvent utiliser
claude-sonnet-5via l’API Claude - Le prix de lancement sur Claude Platform est de 2 $ par million de tokens en entrée et 10 $ par million de tokens en sortie jusqu’au 31 août 2026
- Ensuite, le prix standard passera à 3 $ par million de tokens en entrée et 15 $ par million de tokens en sortie
- Afin de tenir compte de l’augmentation de la consommation de tokens aux niveaux d’effort élevés, les limites de requêtes sont relevées dans Chat, Cowork, Claude Code et Claude Platform
- Sonnet 5 est une mise à niveau de Sonnet 4.6, mais utilise un tokenizer mis à jour
- Le traitement du texte a été modifié pour améliorer les performances
- Une même entrée peut être mappée vers environ 1,0 à 1,35 fois plus de tokens selon le type de contenu
- Le prix de lancement est fixé de manière à ce que la transition vers Sonnet 5 soit globalement neutre en coût
Mise à jour du graphique BrowseComp
- Lors de l’édition du 30 juin 2026, le graphique coût-performance de l’évaluation BrowseComp a été mis à jour
- Le graphique initial reposait sur des données issues d’une méthodologie plus simple, qui ne reflétait pas la méthodologie standard utilisée par Anthropic pour l’évaluation de recherche agentique, ce qui a conduit à sous-estimer les performances de Sonnet 5
- Le graphique mis à jour est aligné sur la méthodologie standard et sur l’approche utilisée et discutée dans la system card de Sonnet 5
- Cette approche utilise un budget de 10 M de tokens, la compression et des appels d’outils programmatiques
- Le texte explicatif environnant a également été mis à jour
4 commentaires
Peut-être que je me suis habitué à opus4.8, ou que je n’avais pas utilisé Sonnet depuis un moment...
Aujourd’hui, j’ai utilisé Sonnet un court instant et j’ai été très déçu.
Par le passé, j’aurais peut-être été pleinement satisfait, mais il produisait pas mal d’hallucinations, plus que je ne l’aurais pensé.
Donne-moi au moins
fable...Donnez-nous vite Fable... 😢😢
Avis sur Hacker News
En regardant le graphique du coût par tâche, on a l'impression qu'il ne faut pas utiliser Sonnet 5 au-delà du niveau d'effort moyen. À coût égal, Opus est toujours meilleur, donc si le niveau moyen de Sonnet 5 ne suffit pas, la conclusion semble être qu'il vaut mieux changer de modèle plutôt qu'augmenter le niveau d'effort
En pratique, j'utilise simplement la valeur par défaut de Claude Code et cela fonctionne largement assez bien. En revanche, je me demande dans quelle mesure les autres utilisateurs expérimentent et optimisent ces réglages selon leur projet
Par ailleurs, pour certaines tâches, ce qui compte avant tout, c'est le volume pur de tokens en entrée. Par exemple, pour les tâches d'utilisation multimodale sur ordinateur, on ne peut pas rendre Opus plus efficace simplement en baissant le niveau de raisonnement, donc un modèle moins cher comme Sonnet est utile
Cela dit, en pratique, je passe tellement de temps à corriger les résultats produits par le modèle qu'un modèle plus lent mais plus intelligent réduit quand même le temps total
[0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
Je l'ai testé avec mon benchmark[0] : il est au niveau de GLM-5.2, coûte deux fois plus, mais il est aussi deux fois plus rapide
Ses faiblesses : 0/3 au quiz de culture générale, donc quasiment pas de connaissances intégrées ; 45/100 sur les tâches d'appels d'outils composites, avec des appels d'outils parfois erronés ; et 77 aux puzzles, avec des erreurs sur des tests du type station de lavage
[0]: https://aibenchy.com/compare/anthropic-claude-sonnet-4-6-med...
À l'inverse, Sonnet 5 m'a paru de loin le plus paresseux des modèles Claude que j'ai testés, et après ne pas avoir ajouté le complément de plan demandé, il a menti en affirmant l'avoir fait. D'après l'analyse[0], cela n'a aucune valeur pour moi, même si ce sera peut-être différent pour d'autres. Fable était clairement bien meilleur
[0]: https://artificialanalysis.ai/models/claude-sonnet-5
Sur plusieurs benchmarks, dès qu'on dépasse le niveau d'effort moyen, le coût par tâche dépasse celui d'Opus, donc je comprends mal pourquoi utiliser cela au lieu de simplement prendre Opus avec un faible niveau d'effort
La seule raison qui me vient à l'esprit, c'est de ne plus avoir de crédits Opus. Il y a bien sûr les cas d'usage facturés via l'API, mais même là, j'aurais tendance à prendre Opus en faible niveau d'effort
On dirait que les modèles sont davantage optimisés pour extraire plus d'argent des utilisateurs et des entreprises que pour résoudre les problèmes. Je lui ai donné des instructions claires pour une tâche Python simple de 2 ou 3 lignes, et je ne comprends pas pourquoi Opus essaie de construire toute une bibliothèque
Mais lorsqu'on résout de vrais problèmes en itérant et en explorant, la longueur du contexte augmente progressivement, et c'est souvent là qu'Opus devient cher
[0] https://www.anthropic.com/claude-sonnet-5-system-card
Claude Sonnet 5 aurait été rendu plus agentique que n’importe quel Sonnet jusqu’ici. Il planifie, utilise des outils comme le navigateur ou le terminal, et peut agir de manière autonome à un niveau qui, il y a encore quelques mois, aurait nécessité un modèle plus gros et plus coûteux
J’ai surtout fait du développement assisté par agent plutôt que du développement entièrement piloté par agent, donc j’ai davantage utilisé Sonnet 4.6 qu’Opus. Mais cette annonce ne m’inspire pas vraiment de manière positive. Plus les modèles sont optimisés pour un développement totalement agentique, plus ils ont tendance à être moins bons pour l’assistance au développement, et à en faire trop même avec des consignes très strictes et très précises
Ces dernières semaines, je bascule de plus en plus vers K2.7 Code et GLM-5.2. Pour un usage d’assistance, c’est souvent largement suffisant, et c’est très rapide et peu coûteux
Le problème, c’est que les gens à l’intérieur de ces entreprises semblent croire que, dans un ou deux ans, plus personne ne travaillera de cette façon
Il faut un peu plus le corriger qu’Opus. Mais le vrai critère, c’est la différence entre « il faut lire chaque ligne » et « on peut lui faire confiance sans lire chaque ligne », et pour moi aucun modèle n’a atteint le second niveau, et ça ne semble pas près d’arriver. Ce n’est pas aussi bon qu’Opus pour brainstormer une architecture puis la transformer en code, mais ce n’est pas toujours le problème, et si j’en ai besoin je peux utiliser Opus
Grâce à ça, même les semaines avec beaucoup de code, je ne me heurte pas au plafond de dépenses dès le mercredi ou le jeudi, et j’ai de la marge toute la semaine. Cela dit, en pratique, j’ai vraiment l’impression de devoir tenir K2.6 bien davantage qu’Opus. Il faut faire beaucoup plus attention pour qu’il ne parte pas immédiatement dans une tâche de codage par inférence alors qu’on veut simplement poser une question. J’utilise les deux en mode planification, mais avec K2.6 il faut être plus défensif qu’avec Opus
L’essentiel de mon travail ressemble davantage à de l’ingénierie agentique qu’à un mode où l’on lance quelque chose puis on l’oublie. Je reste impliqué pendant la phase de planification, je passe en revue les résultats, et je pose bien plus de questions à l’agent que la plupart des gens. L’approche qui me convient le mieux, c’est de l’utiliser comme un mode « autocomplétion surpuissante » où je définis les exigences, le périmètre, la conception, et parfois même les frontières de modules spécifiques, puis je lui fais remplir les blancs
Le rapport performance/prix semble aussi moins bon que pour GLM 5.2. Et pourtant GLM 5.2 n’a « que » 744B paramètres
La system card dit que « dans la découverte de vulnérabilités CyberGym, Claude Sonnet 5 est moins compétent que Sonnet 4.6, et bien moins compétent qu’Opus 4.8 et Mythos 5 »
Elle dit aussi : « Comme pour les autres évaluations de cette section, ces résultats ont été obtenus avec toutes les protections désactivées. Exécuté avec les mesures d’atténuation par défaut activées, Sonnet 5 a obtenu un score de 0 sur CyberGym »
C’était similaire pour la planification et le code. GLM-5.2 a l’air bon « sur le papier », mais en usage réel le résultat était différent
Je ne cherche pas à défendre Claude ou GLM-5.2. Depuis que j’utilise des grands modèles de langage tous les jours depuis novembre 2022, ce que j’ai compris, c’est que les tests généraux doivent être vérifiés sur ses propres projets. Il n’existe pas de « modèle unique qui domine tout », et il faut trouver un modèle précis dans une botte de foin de milliers de modèles
Les benchmarks sont utiles, mais ils ressemblent de plus en plus aux chiffres de consommation dans les publicités automobiles. La consommation réelle varie selon les gens
Du genre : « le modèle X est meilleur ou pire de Y % que Claude Z sur tel benchmark T », « ça ne veut rien dire, c’est optimisé pour le benchmark », « inutilisable pour le code du quotidien ou le travail agentique, la sensation est complètement différente », « c’est presque pareil et bien moins cher, donc je l’utilise sans hésiter », « les différences de performance à la marge font que le faible coût des modèles ouverts ne compense pas la perte de productivité, donc ce n’est pas justifié »
Je suis un client mécontent d’Anthropic, et je soutiens vraiment les modèles ouverts et l’intelligence non fermée. Mais je ne sais plus comment sortir de cette répétition, devenue un mème, du discours autour des sorties de modèles. Je ne suis pas non plus quelqu’un qui conçoit des grands modèles de langage ou des benchmarks, et j’apprécie sincèrement les efforts faits pour apporter de l’information, même si ce n’est pas parfait. J’ai l’impression que la plupart des gens qui lisent régulièrement les commentaires sur ce genre d’annonce ressentent la même chose
Claude Sonnet 5 a décrit son propre pélican comme une oie
« Une oie blanche fait du vélo, avec une aile tendue vers l’avant tenant le guidon, sur un fond blanc ordinaire avec une ligne de sol brune »
https://simonwillison.net/2026/Jun/30/claude-sonnet-5/
En revanche, GLM 5.2 a dessiné un pélican SVG entièrement animé, superbe et autonome
https://simonwillison.net/2026/Jun/17/glm-52
Aujourd’hui, j’ai utilisé un peu Sonnet 5 par accident, et pour le développement logiciel il m’a semblé nettement moins bon que Opus 4.8
Je me demande si une paranoïa excessive autour de la cybersécurité finit par pousser le modèle à générer du code moins sûr. S’il est capable d’écrire du code sécurisé, cela veut bien dire qu’il comprend quelque chose à la cybersécurité, et on pourrait aussi considérer qu’avec ces connaissances il serait capable de pirater les banques du monde entier
J’attendais pas mal ce modèle, donc sur trois projets différents, j’ai demandé aux planificateurs Opus d’utiliser Sonnet à la place des sous-agents Opus pour m’aider plus vite à expérimenter des noyaux HPC. Mais pas une seule ligne de code n’a été écrite, et les Sonnet tournaient en rond en gaspillant juste des tokens
Je ne me souviens même pas de la dernière fois où ce genre de chose m’était arrivé avec Opus dans ma base de code. Je suis en train de revenir en arrière
Le problème s’est résolu de lui-même
Le point important, c’est ça : « Sonnet 5 est une mise à niveau de Sonnet 4.6, mais utilise un tokenizer mis à jour qui modifie la manière dont le modèle traite le texte afin d’améliorer les performances. Cela ressemble au changement de tokenizer introduit dans Claude Opus 4.7. La contrepartie, c’est qu’une même entrée peut être mappée sur davantage de tokens. Selon le type de contenu, on est approximativement entre 1,0 et 1,35x. Le prix d’introduction a été fixé de façon à rester globalement neutre en coût lors du passage à Sonnet 5 »