- Dernier modèle Sonnet d’Anthropic, avec des performances améliorées dans tous les domaines : écriture de code, utilisation de l’ordinateur, raisonnement à long terme, planification d’agents, travail sur les connaissances, design, etc.
- Prend en charge une fenêtre de contexte de 1M de tokens, avec de nettes améliorations de la cohérence, de l’exécution des consignes et de la qualité du code par rapport à Sonnet 4.5
- Offre une intelligence de niveau Opus 4.5 à moindre coût, avec des résultats au niveau humain sur des tâches réelles, la compréhension de documents et la conception frontend
- Sur le benchmark OSWorld, les capacités d’utilisation de l’ordinateur continuent de progresser, et la résistance aux injections de prompt a aussi été renforcée
- Le point clé est que les développeurs et les entreprises peuvent désormais bénéficier d’un raisonnement de niveau frontier et d’une qualité de code avancée sans modèle coûteux
Vue d’ensemble de Claude Sonnet 4.6
- Sonnet 4.6 est le modèle le plus puissant de la série Sonnet d’Anthropic, avec une montée en gamme générale sur le codage, l’utilisation de l’ordinateur, le raisonnement à long terme, le travail sur les connaissances et le design
- Prend en charge une fenêtre de contexte de 1M de tokens (bêta), ce qui permet de traiter en une seule fois de vastes bases de code ou de longs documents
- Déployé comme modèle par défaut pour les utilisateurs des offres Free et Pro, avec un tarif inchangé par rapport à Sonnet 4.5 de 3 $/15 $ par million de tokens
- Les premiers utilisateurs ont très largement préféré Sonnet 4.6 à Sonnet 4.5, et certains l’ont même préféré à Opus 4.5
- Selon les évaluations de sécurité, il est aussi sûr ou plus sûr que les modèles précédents, et a été jugé doté d’une « personnalité chaleureuse, honnête et prosociale »
Capacités d’utilisation de l’ordinateur
- Sonnet 4.6 évolue vers un modèle capable de manipuler un ordinateur comme un humain
- Il est évalué via le benchmark OSWorld en manipulant, dans un environnement virtuel, de vrais logiciels comme Chrome, LibreOffice et VS Code
- Après 16 mois de progression continue des performances, des capacités de niveau humain ont été observées sur des tâches comme la navigation dans des feuilles de calcul complexes ou le remplissage de formulaires web à étapes multiples
- Il reste encore en dessous des humains les plus expérimentés, mais la vitesse d’amélioration de l’efficacité sur les tâches est très élevée
- Sa défense contre les attaques par injection de prompt a été nettement améliorée par rapport à Sonnet 4.5, atteignant un niveau de sécurité proche de celui d’Opus 4.6
Évaluation des performances et benchmarks
- Sonnet 4.6 offre une intelligence de niveau Opus à moindre coût, avec une amélioration globale sur divers benchmarks
- Dans les tests Claude Code, 70 % des utilisateurs ont préféré Sonnet 4.6, avec une meilleure compréhension du contexte et une réduction des redondances lors de la modification de code
- 59 % de préférence face à Opus 4.5, avec moins de surconception et de paresse, et une meilleure précision dans l’exécution des consignes
- Dans Vending-Bench Arena, il a dépassé les modèles concurrents en simulation de gestion à long terme grâce à une stratégie concentrant les bénéfices en fin de période après un investissement initial
- Sur OfficeQA, il montre une compréhension documentaire équivalente à Opus 4.6, et sur le Financial Services Benchmark, le taux de concordance des réponses a augmenté
- Il enregistre 94 % de précision sur un benchmark assurance et 15 % d’amélioration des performances de raisonnement approfondi dans le test Box
- Dans le test Rakuten AI, il atteint le meilleur niveau en génération de code iOS, avec une meilleure utilisation des outils modernes et une architecture de meilleure qualité
Mises à jour produit et plateforme
- La Claude Developer Platform prend en charge adaptive thinking, extended thinking et context compaction (bêta)
- Le résumé automatique des anciens contextes permet d’augmenter la longueur de contexte effective
- Mises à jour des outils API :
- web search et fetch écrivent et exécutent automatiquement du code pour filtrer les résultats de recherche
- Des fonctions comme code execution, memory, programmatic tool calling et tool search sont désormais disponibles de façon générale
- L’add-in Claude in Excel prend en charge les connecteurs MCP, permettant l’intégration de données externes comme S&P Global, LSEG et PitchBook
- Sonnet 4.6 maintient de hautes performances même sans extended thinking, et la migration est recommandée aux utilisateurs de Sonnet 4.5
- Opus 4.6 reste toutefois plus adapté aux tâches exigeant le raisonnement le plus approfondi, comme le refactoring de code ou la coordination multi-agents
Disponibilité
- Sonnet 4.6 est disponible sur toutes les offres Claude, Claude Cowork, Claude Code, l’API et les principales plateformes cloud
- L’offre gratuite passe elle aussi à Sonnet 4.6, avec création de fichiers, connecteurs, skills et compaction du contexte
- Les développeurs peuvent l’utiliser immédiatement via l’API Claude avec le nom de modèle
claude-sonnet-4-6
Principaux chiffres et indicateurs (résumé des notes)
- OSWorld : évaluation de tâches informatiques sur de vrais logiciels, Sonnet 4.6 ayant été mesuré avec le mode « thinking off »
- SWE-bench Verified : score moyen de 80,2 % sur 10 essais
- ARC-AGI-2 : 60,4 % atteints en mode effort maximal
- MMMU-Pro : score ajusté après amélioration de la méthode d’évaluation
- Sur Humanity’s Last Exam, BrowseComp et d’autres expériences, les tests ont été réalisés avec les fonctions d’utilisation d’outils, de recherche web et de compaction du contexte activées
1 commentaires
Réactions sur Hacker News
Le fait qu’ils se concentrent sur l’usage de l’ordinateur est impressionnant. Ils semblent donc juger cela très précieux. Mais la partie sécurité reste douteuse. D’après leur propre évaluation, un système d’attaque automatisé a réussi à pénétrer avec 8 % de probabilité en une seule tentative, et jusqu’à 50 % avec des tentatives illimitées. Des chiffres comme ça sont difficiles à accepter. Sauf si j’ai mal compris quelque chose, c’est un niveau inutilisable en conditions réelles
PDF de l’évaluation de sécurité
J’ai testé Sonnet 4.6 avec environ 900 poèmes de mon recueil personnel, et il y a une grande différence par rapport à Opus 4.6. Opus 4.6 a montré une analyse étonnante, alors que Sonnet 4.6 reste fréquent en hallucinations et erreurs. Même impression dans les tests de code. Il est encore loin derrière Opus
Sonnet 4.6 échoue toujours au « problème du car wash ». J’ai repris tel quel la question d’origine, et il a répondu « va à pied ». Même en essayant plusieurs variantes, l’échec restait similaire
On sent vraiment ce que veut dire « la concurrence est bonne pour les consommateurs ». Plus la concurrence sur le marché est rude, meilleurs sont les résultats
Le test du « lavage auto en hélicoptère » était le meilleur. Sonnet 4.6 a répondu « va à pied », et c’était amusant, comme une satire des habitudes américaines de prendre la voiture pour de très courtes distances
Il est surprenant que Sonnet 4.6 soit encore au niveau de performance d’Opus 4.5. La vitesse des progrès rappelle celle de l’augmentation des performances informatiques dans les années 1990
Le prix de Sonnet 4.5 est de $3/$15 per million tokens, et je me demande combien de gens accepteront ce tarif. Les modèles open weight rattrapent vite leur retard et sont bien moins chers
J’ai ajouté la prise en charge d’Opus/Sonnet 4.6 au plugin llm.datasette.io, ce qui a retardé la création de l’image du pélican. Le résultat est du niveau d’Opus 4.5, avec un magnifique haut-de-forme
Billet de blog lié
Ces derniers jours, je testais Sonnet 4.5, et les conversations étaient étrangement intéressantes et cohérentes.
J’ai ajouté dans mes paramètres personnels : « priorité aux faits objectifs et à l’analyse critique, pas d’empathie émotionnelle », et il suit vraiment bien cette consigne. ChatGPT réagit de façon similaire
Plusieurs utilisateurs signalent qu’Opus 4.6 consomme 5 à 10 fois plus de tokens que 4.5. Lien vers l’issue. Pas encore de réponse officielle. Du coup, certains comptent continuer avec 4.5
/models. Si c’est réglé sur high, l’usage de tokens grimpe fortement