Claude Opus 4.6 dévoilé
(anthropic.com)- Dernier modèle d’IA d’Anthropic, doté de capacités de codage améliorées et d’une meilleure endurance sur les tâches de longue durée, avec prise en charge bêta d’une fenêtre de contexte de 1M de tokens
- Il enregistre des scores de tout premier plan sur les principaux benchmarks, avec une avance d’environ 144 points Elo sur GPT-5.2
- Les performances sont renforcées pour des tâches concrètes comme la revue de code et le débogage, le traitement de grandes bases de code, ainsi que l’analyse financière et la rédaction de documents
- Des fonctions de contrôle pour les développeurs ont été ajoutées, comme Adaptive thinking, context compaction et le réglage de l’effort, afin de faciliter l’exploitation d’agents exécutés sur la durée
- Les évaluations de sûreté montrent également de faibles taux d’erreurs, d’abus et de refus excessifs, ce qui positionne le modèle comme une combinaison réussie de hautes performances et de sécurité
Principales améliorations de Claude Opus 4.6
- Opus 4.6 améliore par rapport à la version précédente les capacités de planification, la persistance des agents et le contrôle qualité du code
- Il fonctionne de manière plus stable sur de grandes bases de code et renforce ses capacités de détection et de correction de ses propres erreurs
- La fenêtre de contexte de 1M de tokens (bêta) permet de traiter des tâches longues et complexes
- Son utilité pour le travail quotidien s’élargit aussi, avec la réalisation de tâches variées comme l’analyse financière, la recherche, la rédaction de documents, les feuilles de calcul et la création de présentations
- Dans l’environnement Cowork, il peut effectuer du multitâche de façon autonome et prendre en charge des workflows complexes à la place de l’utilisateur
Benchmarks et évaluation des performances
- Meilleur score sur Terminal-Bench 2.0, et première place parmi tous les modèles frontier sur Humanity’s Last Exam
- Sur l’évaluation GDPval-AA, il obtient une performance supérieure d’environ 144 points Elo à GPT-5.2 et de 190 points à Opus 4.5
- Il atteint aussi les meilleures performances sur le test BrowseComp, renforçant ses capacités de recherche d’informations en ligne
- Sur MRCR v2 (1M variant), il obtient 76 %, contre 18,5 % pour Sonnet 4.5, soit une nette progression
- La conservation du contexte long et la capacité à suivre l’information ont été améliorées, réduisant le phénomène de context rot
Premières expériences d’utilisation et retours des partenaires
- Les tests d’ingénierie internes montrent une amélioration des capacités de résolution de problèmes complexes et du jugement
- Sur les problèmes difficiles, il approfondit sa réflexion de manière itérative pour produire de meilleurs résultats
- Sur les tâches simples, une réflexion excessive peut rallonger le temps de réponse, mais cela peut être ajusté via le paramètre
/effort
- Les premiers partenaires estiment qu’Opus 4.6 excelle dans la capacité d’exécution autonome, le traitement de demandes complexes et le support à la collaboration en équipe
- Excellente précision dans l’exploration de grandes bases de code, l’exécution parallèle de sous-tâches et l’identification des blocages
- Haute précision dans l’analyse de contenus juridiques, financiers et techniques (par ex. BigLaw Bench 90,2 %)
- Lors de tests réels, de meilleurs résultats qu’Opus 4.5 dans 38 enquêtes de cybersécurité sur 40
- Un cas rapporté indique qu’une migration de code de plusieurs millions de lignes a été accomplie en deux fois moins de temps
Renforcement de la sûreté et de la sécurité
- Les audits automatisés de comportement montrent un faible taux de comportements non alignés, comme la tromperie, la flatterie ou la coopération à des usages abusifs
- C’est le modèle Claude avec le plus faible taux de refus excessif (over-refusal)
- De nouvelles évaluations de sûreté ont été menées sur le bien-être des utilisateurs, le refus des requêtes à risque et la détection de comportements nuisibles dissimulés
- Des travaux sur l’interprétabilité analysent les causes du fonctionnement interne du modèle et détectent d’éventuels problèmes
- Avec le renforcement des capacités en cybersécurité, six nouvelles sondes de sécurité ont été introduites pour mieux détecter les abus
- En usage défensif, il aide à détecter et corriger des vulnérabilités open source, avec un projet futur de blocage des abus en temps réel
Mises à jour produit et API
- Les fonctions suivantes ont été ajoutées à la Claude Developer Platform
- Adaptive thinking : le modèle décide automatiquement s’il doit engager une réflexion approfondie selon la situation
- Niveaux d’effort : quatre niveaux sont proposés, low, medium, high (par défaut) et max
- Context compaction (bêta) : lorsque la conversation s’allonge, l’ancien contexte est résumé et remplacé
- Prise en charge du contexte 1M de tokens (bêta) et de 128k tokens de sortie
- Option d’inference limitée aux États-Unis (tarif x1,1)
- Claude Code ajoute la fonction agent teams, permettant à plusieurs agents de collaborer en parallèle
- Claude in Excel améliore sa capacité à structurer des données non structurées et à gérer des modifications en plusieurs étapes
- Claude in PowerPoint (research preview) reconnaît les modèles de slides, les polices et les mises en page afin de préserver la cohérence de marque
Accès et tarification
- Opus 4.6 est disponible immédiatement sur claude.ai, via l’API et sur les principales plateformes cloud
- Son nom de modèle API est
claude-opus-4-6, et son prix reste inchangé à $5/$25 per million tokens - Les prompts dépassant 200k tokens sont soumis à un tarif premium ($10/$37.50 per million tokens)
Conclusion
- Claude Opus 4.6 marque une avancée majeure dans le traitement de contexte long, le travail autonome des agents et les capacités de raisonnement avancé
- En renforçant à la fois les performances, la sûreté et la contrôlabilité pour les développeurs, il établit une nouvelle référence pour les outils d’IA orientés usage professionnel
9 commentaires
J’utilise Max, et d’une certaine façon plus je consomme de tokens, plus j’ai l’impression d’en avoir pour mon argent… Si je ne les utilise pas, j’ai l’impression de gâcher…
Apparemment, la baisse de prix qui circulait sur Internet n’a pas été appliquée, hélas
On voit affluer sur Reddit des posts disant que les abonnés atteignent leurs limites à une vitesse fulgurante.
Comme j’ai aussi du travail en cours, je continue simplement à utiliser la 4.5 pour l’instant
Il paraît qu’ils offrent aussi des crédits d’utilisation supplémentaires d’une valeur de 50 dollars pendant une période limitée. haha
Je m’attendais à ce que si le prix de l’API baissait, la limite hebdomadaire augmenterait naturellement, donc c’est dommage snif. La limite hebdomadaire du forfait à 200 dollars n’est pas très confortable non plus..
Pff, c’est vraiment trop radin… Anthropic, balancez-nous des tokens… !!
Oh, enfin~~~~
J’attendais Sonnet 5, mais c’était Opus 4.6 haha
Avis sur Hacker News
Le cadre du vélo est un peu de travers, mais le pélican lui-même est excellent
L’image peut être vue ici
J’ai tout de suite remarqué que les deux pattes du pélican étaient du même côté, puis j’ai vérifié sur Wikipedia qu’en réalité ce n’est pas le cas
Je me demande aussi s’ils ont essayé d’ajuster le prompt de façon itérative pour obtenir un résultat plus réaliste
Ils se trompent souvent sur la structure du cadre ou les proportions géométriques
Lien
GPT‑5.3 Codex a affiché une performance écrasante de 77,3 % sur Terminal Bench
Il est surprenant que le record ait été battu en seulement 35 minutes
Je me demande aussi s’ils ne les font pas tourner à pleine puissance juste après la sortie, avant de réduire ensuite les coûts
J’aimerais me faire un avis après l’avoir essayé moi-même
Je me demande si l’on n’a pas désormais atteint un état de saturation des benchmarks
Voici un résumé des notes de version de Claude Code
Ajout d’Opus 4.6, fonctionnalités de collaboration multi-agent, enregistrement automatique de la mémoire, résumés partiels de conversation, améliorations de VSCode, etc.
En regardant la documentation de la fonction mémoire, cela ressemble à un concept proche du Knowledge artifact de Google Antigravity
Je pense que deux choses sont mélangées dans la discussion
La première est la rentabilité fondée sur le coût unitaire du token, la seconde est l’économie du cycle de vie du modèle
Le coût de l’inférence peut être rentable, tout en laissant l’ensemble du programme du modèle déficitaire
La vraie question est : « Combien de temps un modèle doit-il rester compétitif pour que cela tienne économiquement ? »
Même sans être le meilleur, un produit peut dominer le marché s’il est suffisamment bon et que le coût de changement est élevé
Il peut être rationnel d’accepter des pertes au départ pour sécuriser le marché dans un domaine donné (par ex. le code)
Mais la viabilité des offres avec une utilisation 20 fois supérieure reste douteuse
Je ne sais pas si la « renaissance du vibe-coding » actuelle peut durer avec cette structure de coûts
Les juger sur un compte de résultat annuel n’est pas approprié pour une entreprise d’IA
C’est lui qui soutient actuellement le boom du code orienté agent
Il est probablement un peu subventionné, mais à long terme il pourrait augmenter d’environ 2x
L’arrivée d’une fenêtre de contexte de 1M est une énorme amélioration, et j’en suis très satisfait
Je comprends encore mal la stratégie d’Anthropic
Le marketing vise le grand public, mais sa vraie force reste centrée sur le code
Pour la recherche générale ou l’exploration d’informations, ChatGPT ou Gemini sont bien plus profonds et s’expriment mieux
Ils font du marketing autour de la « constitution » ou des « droits humains », mais au final cela donne plutôt l’impression d’une approche très transactionnelle
Cela dit, pour le code c’est excellent, donc je continue à payer
Même des amis non techniques sont passés de ChatGPT à Claude, et je n’en ai pas vu revenir en arrière
Il y a 8 mois, cela ne valait vraiment le coup qu’en API, mais c’est désormais bien meilleur
Je suis tchécophone, et Claude invente des mots, tandis que Grok répond parfois en russe
C’est bien pour coder, mais impossible pour les conversations générales
Il est bon pour les tâches de type agent ou l’usage d’outils, mais je ne l’utilise pas pour des questions ordinaires
Opus 4.6 n’apparaissait pas dans l’installation, mais il est apparu après avoir relancé la commande d’installation (v2.1.32)
Guide d’installation
Je me demande si les coûts d’exploitation de l’IA/LLM sont réellement en baisse
Le concept d’« équipe d’agents » est séduisant, mais faire tourner plusieurs modèles en parallèle semble en pratique difficile à cause du coût
OpenAI a réduit le prix d’o3 à un cinquième grâce à des optimisations d’ingénierie, et d’autres entreprises ont obtenu des réductions comparables
L’ancienne idée selon laquelle « ils perdent de l’argent sur chaque requête » est fausse
L’entreprise dans son ensemble est déficitaire à cause de la R&D et de l’entraînement, mais l’usage de l’API lui-même est rentable
Même des modèles open comme DeepSeek génèrent des bénéfices à des prix bien plus bas
Par exemple, Claude 4 (environ 400B de paramètres) est bien plus cher que DeepSeek V3 (680B)
Claude : entrée 1 $/M, sortie 5 $/M vs DeepSeek : entrée 0,4 $/M, sortie 1,2 $/M
Cette différence vient du fait qu’Anthropic doit amortir ses coûts d’entraînement
Tarifs DeepSeek, Tarifs Claude
Si l’on ne regarde que les revenus de l’inférence, c’est rentable, mais ce n’est pas forcément le cas une fois tous les coûts intégrés
Je m’en sers comme assistant de code, mais il faut souvent corriger la trajectoire
Cela reste tout de même bien moins cher que d’embaucher du personnel expérimenté
La formule « We build Claude with Claude » est assez intéressante
Elles sont automatiquement nettoyées après 60 jours d’inactivité, mais leur nombre continue d’augmenter
Cette formule n’a pas beaucoup de sens en dehors du biais qu’elle révèle
Utiliser soi-même son propre produit est le meilleur moyen d’en améliorer la qualité
C’est la raison pour laquelle les wrappers se multiplient autant, et j’ai l’impression qu’il y aura un incident de sécurité un jour
Ils offrent aussi 50 $ de crédit supplémentaires pour essayer Opus 4.6
Vous pouvez les récupérer directement sur la page d’utilisation
C’est probablement pour anticiper une hausse de l’usage des tokens ou pour promouvoir le modèle