- Dernier modèle Sonnet d’Anthropic, avec des performances améliorées dans tous les domaines : écriture de code, utilisation de l’ordinateur, raisonnement à long terme, planification d’agents, travail sur les connaissances, design, etc.
- Prend en charge une fenêtre de contexte de 1M de tokens, avec de nettes améliorations de la cohérence, de l’exécution des consignes et de la qualité du code par rapport à Sonnet 4.5
- Offre une intelligence de niveau Opus 4.5 à moindre coût, avec des résultats au niveau humain sur des tâches réelles, la compréhension de documents et la conception frontend
- Sur le benchmark OSWorld, les capacités d’utilisation de l’ordinateur continuent de progresser, et la résistance aux injections de prompt a aussi été renforcée
- Le point clé est que les développeurs et les entreprises peuvent désormais bénéficier d’un raisonnement de niveau frontier et d’une qualité de code avancée sans modèle coûteux
Vue d’ensemble de Claude Sonnet 4.6
- Sonnet 4.6 est le modèle le plus puissant de la série Sonnet d’Anthropic, avec une montée en gamme générale sur le codage, l’utilisation de l’ordinateur, le raisonnement à long terme, le travail sur les connaissances et le design
- Prend en charge une fenêtre de contexte de 1M de tokens (bêta), ce qui permet de traiter en une seule fois de vastes bases de code ou de longs documents
- Déployé comme modèle par défaut pour les utilisateurs des offres Free et Pro, avec un tarif inchangé par rapport à Sonnet 4.5 de 3 $/15 $ par million de tokens
- Les premiers utilisateurs ont très largement préféré Sonnet 4.6 à Sonnet 4.5, et certains l’ont même préféré à Opus 4.5
- Selon les évaluations de sécurité, il est aussi sûr ou plus sûr que les modèles précédents, et a été jugé doté d’une « personnalité chaleureuse, honnête et prosociale »
Capacités d’utilisation de l’ordinateur
- Sonnet 4.6 évolue vers un modèle capable de manipuler un ordinateur comme un humain
- Il est évalué via le benchmark OSWorld en manipulant, dans un environnement virtuel, de vrais logiciels comme Chrome, LibreOffice et VS Code
- Après 16 mois de progression continue des performances, des capacités de niveau humain ont été observées sur des tâches comme la navigation dans des feuilles de calcul complexes ou le remplissage de formulaires web à étapes multiples
- Il reste encore en dessous des humains les plus expérimentés, mais la vitesse d’amélioration de l’efficacité sur les tâches est très élevée
- Sa défense contre les attaques par injection de prompt a été nettement améliorée par rapport à Sonnet 4.5, atteignant un niveau de sécurité proche de celui d’Opus 4.6
Évaluation des performances et benchmarks
- Sonnet 4.6 offre une intelligence de niveau Opus à moindre coût, avec une amélioration globale sur divers benchmarks
- Dans les tests Claude Code, 70 % des utilisateurs ont préféré Sonnet 4.6, avec une meilleure compréhension du contexte et une réduction des redondances lors de la modification de code
- 59 % de préférence face à Opus 4.5, avec moins de surconception et de paresse, et une meilleure précision dans l’exécution des consignes
- Dans Vending-Bench Arena, il a dépassé les modèles concurrents en simulation de gestion à long terme grâce à une stratégie concentrant les bénéfices en fin de période après un investissement initial
- Sur OfficeQA, il montre une compréhension documentaire équivalente à Opus 4.6, et sur le Financial Services Benchmark, le taux de concordance des réponses a augmenté
- Il enregistre 94 % de précision sur un benchmark assurance et 15 % d’amélioration des performances de raisonnement approfondi dans le test Box
- Dans le test Rakuten AI, il atteint le meilleur niveau en génération de code iOS, avec une meilleure utilisation des outils modernes et une architecture de meilleure qualité
Mises à jour produit et plateforme
- La Claude Developer Platform prend en charge adaptive thinking, extended thinking et context compaction (bêta)
- Le résumé automatique des anciens contextes permet d’augmenter la longueur de contexte effective
- Mises à jour des outils API :
- web search et fetch écrivent et exécutent automatiquement du code pour filtrer les résultats de recherche
- Des fonctions comme code execution, memory, programmatic tool calling et tool search sont désormais disponibles de façon générale
- L’add-in Claude in Excel prend en charge les connecteurs MCP, permettant l’intégration de données externes comme S&P Global, LSEG et PitchBook
- Sonnet 4.6 maintient de hautes performances même sans extended thinking, et la migration est recommandée aux utilisateurs de Sonnet 4.5
- Opus 4.6 reste toutefois plus adapté aux tâches exigeant le raisonnement le plus approfondi, comme le refactoring de code ou la coordination multi-agents
Disponibilité
- Sonnet 4.6 est disponible sur toutes les offres Claude, Claude Cowork, Claude Code, l’API et les principales plateformes cloud
- L’offre gratuite passe elle aussi à Sonnet 4.6, avec création de fichiers, connecteurs, skills et compaction du contexte
- Les développeurs peuvent l’utiliser immédiatement via l’API Claude avec le nom de modèle
claude-sonnet-4-6
Principaux chiffres et indicateurs (résumé des notes)
- OSWorld : évaluation de tâches informatiques sur de vrais logiciels, Sonnet 4.6 ayant été mesuré avec le mode « thinking off »
- SWE-bench Verified : score moyen de 80,2 % sur 10 essais
- ARC-AGI-2 : 60,4 % atteints en mode effort maximal
- MMMU-Pro : score ajusté après amélioration de la méthode d’évaluation
- Sur Humanity’s Last Exam, BrowseComp et d’autres expériences, les tests ont été réalisés avec les fonctions d’utilisation d’outils, de recherche web et de compaction du contexte activées
Aucun commentaire pour le moment.