Anthropic dévoile Claude Opus 4.1
(anthropic.com)- Claude Opus 4.1 est une version améliorée qui renforce le codage en production, les tâches agentic et les capacités de raisonnement
- Il affiche la meilleure performance de code à 74,5 % sur SWE-bench Verified, avec d’excellents résultats en débogage précis de bases de code à grande échelle, refactorisation multi-fichiers, etc.
- Les utilisateurs réels comme Rakuten, GitHub, Windsurf soulignent une amélioration claire de la précision de correction du code, de l’efficacité du débogage quotidien et du benchmark des développeurs juniors
- Les performances sont plus affinées en environnement réel pour la refactorisation multi-fichiers et la correction détaillée de code
- Les utilisateurs d’Opus 4 peuvent utiliser Opus 4.1 sans coût supplémentaire via API, Claude Code, Amazon Bedrock, Google Vertex AI dès maintenant
Principales caractéristiques de Claude Opus 4.1
- En comparaison avec Claude Opus 4, les performances sont renforcées sur les tâches agentic, la production de code réelle et les tâches de raisonnement complexes
- Une amélioration encore plus importante est prévue dans les prochaines semaines
Principales améliorations
- SWE-bench Verified a atteint une performance de code de 74,5%
- Les capacités de recherche approfondie et d’analyse de données ont fortement progressé, notamment pour le suivi du détail fin et la recherche agentic
- Des résultats élevés sont également obtenus sur un benchmark de code réel de correction de bugs dans de grands dépôts open source
- Refactorisation multi-fichiers, débogage précis dans des bases de code à grande échelle, etc., optimisés pour le travail des développeurs professionnels
- Sur GitHub, Opus 4.1 améliore les performances de la plupart des fonctions par rapport à Opus 4, avec des gains particulièrement marqués en refactorisation de code multi-fichiers
- Rakuten Group apprécie la capacité d’Opus 4.1 à ne corriger que les parties strictement nécessaires dans une base de code massive, en préservant le style sans modifications inutiles ni introduction de bugs
- Windsurf indique qu’en benchmark de leurs développeurs juniors, Opus 4.1 améliore le score d’un écart-type par rapport à Opus 4, et que c’est un saut de performance comparable au passage de Sonnet 3.7 à Sonnet 4
Comparaison des performances par catégorie
- Agentic coding (SWE-bench Verified)
- Claude Opus 4.1: 74.5%
- Opus 4 précédent: 72.5%, Claude Sonnet 4: 72.7%
- OpenAI o3: 69.1%
- Gemini 2.5 Pro: 67.2%
- → Meilleure précision dans des corrections de code open source réelles
- Agentic terminal coding (Terminal-Bench)
- Claude Opus 4.1: 43.3% (meilleur)
- Opus 4: 39.2%
- Sonnet 4: 35.5%
- OpenAI o3: 30.2%
- Gemini 2.5 Pro: 25.3%
- Graduate-level reasoning (GPQA Diamond)
- Claude Opus 4.1: 80.9%
- Opus 4: 79.6%
- Sonnet 4: 75.4%
- OpenAI o3: 83.3% (meilleur)
- Gemini 2.5 Pro: 86.4% (meilleur)
- Agentic tool use (TAU-bench)
- Scénario Retail: Claude Opus 4.1 82.4% (meilleur), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
- Scénario Airline: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
- Gemini 2.5 Pro n’a pas publié de score dans cette catégorie
- Multilingual Q&A (MMMLU)
- Claude Opus 4.1: 89.5% (meilleur)
- Opus 4: 88.8%
- Sonnet 4: 86.5%
- OpenAI o3: 88.8%
- Gemini 2.5 Pro: non publié
- Visual reasoning (MMMU)
- Claude Opus 4.1: 77.1%
- Opus 4: 76.5%
- Sonnet 4: 74.4%
- OpenAI o3: 82.9% (meilleur)
- Gemini 2.5 Pro: 82% (meilleur)
- High school math competition (AIME 2025)
- Claude Opus 4.1: 78.0%
- Opus 4: 75.5%
- Sonnet 4: 70.5%
- OpenAI o3: 88.9% (meilleur)
- Gemini 2.5 Pro: 88% (meilleur)
-
Résumé du tableau de benchmarks
- Claude Opus 4.1 affiche une progression constante par rapport à sa version précédente et obtient les meilleurs scores sur les benchmarks opérationnels d’automatisation de code, de refactorisation multi-fichiers, de QA multilingue et d’usage d’outils
- Dans les domaines mathématiques, de raisonnement visuel et de raisonnement avancé (GPQA), OpenAI o3 et Gemini 2.5 Pro restent en avance, mais sur la productivité de code en conditions réelles et la QA multilingue, Claude Opus 4.1 demeure le plus performant
- Le scénario Airline (Agentic tool use) recule légèrement, et le raisonnement visuel et mathématique reste légèrement derrière certains modèles
Utilisation et déploiement en conditions réelles
- Les utilisateurs d’Opus 4 sont encouragés à passer directement à
claude-opus-4-1-20250805via l’API - API, Claude Code, Amazon Bedrock, Google Vertex AI et d’autres canaux permettent son déploiement et sa mise en pratique
- La politique tarifaire est identique à celle d’Opus 4, et une mise à niveau immédiate est recommandée pour les utilisateurs existants
- Les ressources telles que la fiche système, la description du modèle, la tarification, la documentation officielle, ainsi que les benchmarks détaillés et les méthodes d’évaluation sont publiés
Perspectives
- Opus 4.1 est une mise à jour progressive reflétant les derniers progrès en codage et en raisonnement, avec l’annonce d’un saut plus important dans les prochaines semaines
- Une amélioration continue des performances et une extension des fonctionnalités sont prévues, en prenant en compte les retours des utilisateurs
Références
- Les données de comparaison, les résultats de benchmarks avec des modèles concurrents récents comme OpenAI o3, Gemini 2.5 Pro, et la mention de l’usage du raisonnement étendu par modèle sont indiqués de manière transparente
1 commentaires
Avis de Hacker News
Trois grands labs ont annoncé des nouveautés à quelques heures d’intervalle, comme un scénario d’animé complètement fou.
Opus 4(.1) est vraiment coûteux lien, Sonnet coûte aussi autour de 5 $/h via OpenRouter + Codename Goose lien, et c’est fou que Sonnet 3.5 lien soit au même prix ; Gemini Flash lien est le plus raisonnable, mais je finis souvent sans décision claire, en tournant en rond. OpenAI n’est pas mauvais, mais n’atteint pas la performance de Claude. En revanche, sur Claude, appuyer sur CTRL-C en plein milieu renvoie une erreur 400 via l’API, ce qui est pénible. Je pense que la rentabilité est importante, et le meilleur rapport qualité/prix était OpenAI ChatGPT 4.1 mini lien, sans dépense de tokens inutile et avec une API qui fonctionne bien en permanence ; parfois il faut éclaircir un peu, mais ça s’en sort.
Opus est présenté comme supérieur à presque tous les points pour le codage, mais je trouve Sonnet beaucoup mieux en pratique. Je me demande s’il existe quelqu’un qui est passé intégralement de Sonnet à Opus, ou s’il n’utilise Opus que pour certaines tâches.
Opus 4.1 me paraît aussi peu utile qu’Opus 4, et donne plutôt l’impression de consommer les tokens plus vite. J’aimerais bien qu’on puisse voir la consommation. Au moins Sonnet 4 reste encore utilisable, mais les sorties deviennent de plus en plus vaporeuses ; j’ai passé mon matin à gâcher du temps sur Claude Code, et je me dis que ça aurait été mieux de le faire directement moi-même.
Le stream de Claude Plays Pokemon a repris avec le nouveau modèle ; il était resté enfermé depuis des semaines dans la cachette de Team Rocket.
L’article dit que « des améliorations majeures des modèles sont attendues dans quelques semaines ». Sonnet 4 était le plus adapté à notre produit, mais j’ai envie d’essayer Haiku 4 (ou 4.1) parce que c’est bon marché. Je trouve étonnant qu’Anthropic n’ait pas du tout évoqué Haiku 4 cette fois.
Aujourd’hui a été la pire journée possible avec Claude, franchement ça a planté. Je ne sais pas si c’est à cause du déploiement, mais des propos grossiers sont apparus dans la doc et des bugs n’ont pas été corrigés même après plusieurs heures d’aller-retour.
C’est la partie de l’article qui m’a le plus intéressé, celle qui dit que les modèles vont s’améliorer sensiblement d’ici quelques semaines.
Cette mise à jour est, même pour eux, à presque aucun niveau d’amélioration ; ce n’est pas mauvais, mais je pense que personne ne percevra la différence.
Tant que le prix d’Opus et de Sonnet reste pareil, je pense que l’usage d’Opus ne dépassera jamais celui de Sonnet. Selon le classement OpenRouter, Sonnet 3.7 et 4 traitent ensemble 17 fois plus de tokens qu’Opus 4.