- Dernier modèle d’IA d’Anthropic, doté de capacités de codage améliorées et d’une meilleure endurance sur les tâches de longue durée, avec prise en charge bêta d’une fenêtre de contexte de 1M de tokens
- Il enregistre des scores de tout premier plan sur les principaux benchmarks, avec une avance d’environ 144 points Elo sur GPT-5.2
- Les performances sont renforcées pour des tâches concrètes comme la revue de code et le débogage, le traitement de grandes bases de code, ainsi que l’analyse financière et la rédaction de documents
- Des fonctions de contrôle pour les développeurs ont été ajoutées, comme Adaptive thinking, context compaction et le réglage de l’effort, afin de faciliter l’exploitation d’agents exécutés sur la durée
- Les évaluations de sûreté montrent également de faibles taux d’erreurs, d’abus et de refus excessifs, ce qui positionne le modèle comme une combinaison réussie de hautes performances et de sécurité
Principales améliorations de Claude Opus 4.6
- Opus 4.6 améliore par rapport à la version précédente les capacités de planification, la persistance des agents et le contrôle qualité du code
- Il fonctionne de manière plus stable sur de grandes bases de code et renforce ses capacités de détection et de correction de ses propres erreurs
- La fenêtre de contexte de 1M de tokens (bêta) permet de traiter des tâches longues et complexes
- Son utilité pour le travail quotidien s’élargit aussi, avec la réalisation de tâches variées comme l’analyse financière, la recherche, la rédaction de documents, les feuilles de calcul et la création de présentations
- Dans l’environnement Cowork, il peut effectuer du multitâche de façon autonome et prendre en charge des workflows complexes à la place de l’utilisateur
Benchmarks et évaluation des performances
- Meilleur score sur Terminal-Bench 2.0, et première place parmi tous les modèles frontier sur Humanity’s Last Exam
- Sur l’évaluation GDPval-AA, il obtient une performance supérieure d’environ 144 points Elo à GPT-5.2 et de 190 points à Opus 4.5
- Il atteint aussi les meilleures performances sur le test BrowseComp, renforçant ses capacités de recherche d’informations en ligne
- Sur MRCR v2 (1M variant), il obtient 76 %, contre 18,5 % pour Sonnet 4.5, soit une nette progression
- La conservation du contexte long et la capacité à suivre l’information ont été améliorées, réduisant le phénomène de context rot
Premières expériences d’utilisation et retours des partenaires
- Les tests d’ingénierie internes montrent une amélioration des capacités de résolution de problèmes complexes et du jugement
- Sur les problèmes difficiles, il approfondit sa réflexion de manière itérative pour produire de meilleurs résultats
- Sur les tâches simples, une réflexion excessive peut rallonger le temps de réponse, mais cela peut être ajusté via le paramètre
/effort
- Les premiers partenaires estiment qu’Opus 4.6 excelle dans la capacité d’exécution autonome, le traitement de demandes complexes et le support à la collaboration en équipe
- Excellente précision dans l’exploration de grandes bases de code, l’exécution parallèle de sous-tâches et l’identification des blocages
- Haute précision dans l’analyse de contenus juridiques, financiers et techniques (par ex. BigLaw Bench 90,2 %)
- Lors de tests réels, de meilleurs résultats qu’Opus 4.5 dans 38 enquêtes de cybersécurité sur 40
- Un cas rapporté indique qu’une migration de code de plusieurs millions de lignes a été accomplie en deux fois moins de temps
Renforcement de la sûreté et de la sécurité
- Les audits automatisés de comportement montrent un faible taux de comportements non alignés, comme la tromperie, la flatterie ou la coopération à des usages abusifs
- C’est le modèle Claude avec le plus faible taux de refus excessif (over-refusal)
- De nouvelles évaluations de sûreté ont été menées sur le bien-être des utilisateurs, le refus des requêtes à risque et la détection de comportements nuisibles dissimulés
- Des travaux sur l’interprétabilité analysent les causes du fonctionnement interne du modèle et détectent d’éventuels problèmes
- Avec le renforcement des capacités en cybersécurité, six nouvelles sondes de sécurité ont été introduites pour mieux détecter les abus
- En usage défensif, il aide à détecter et corriger des vulnérabilités open source, avec un projet futur de blocage des abus en temps réel
Mises à jour produit et API
- Les fonctions suivantes ont été ajoutées à la Claude Developer Platform
- Adaptive thinking : le modèle décide automatiquement s’il doit engager une réflexion approfondie selon la situation
- Niveaux d’effort : quatre niveaux sont proposés, low, medium, high (par défaut) et max
- Context compaction (bêta) : lorsque la conversation s’allonge, l’ancien contexte est résumé et remplacé
- Prise en charge du contexte 1M de tokens (bêta) et de 128k tokens de sortie
- Option d’inference limitée aux États-Unis (tarif x1,1)
- Claude Code ajoute la fonction agent teams, permettant à plusieurs agents de collaborer en parallèle
- Claude in Excel améliore sa capacité à structurer des données non structurées et à gérer des modifications en plusieurs étapes
- Claude in PowerPoint (research preview) reconnaît les modèles de slides, les polices et les mises en page afin de préserver la cohérence de marque
Accès et tarification
- Opus 4.6 est disponible immédiatement sur claude.ai, via l’API et sur les principales plateformes cloud
- Son nom de modèle API est
claude-opus-4-6, et son prix reste inchangé à $5/$25 per million tokens
- Les prompts dépassant 200k tokens sont soumis à un tarif premium ($10/$37.50 per million tokens)
Conclusion
- Claude Opus 4.6 marque une avancée majeure dans le traitement de contexte long, le travail autonome des agents et les capacités de raisonnement avancé
- En renforçant à la fois les performances, la sûreté et la contrôlabilité pour les développeurs, il établit une nouvelle référence pour les outils d’IA orientés usage professionnel
Aucun commentaire pour le moment.