- Claude Opus 4.1 est une version améliorée qui renforce le codage en production, les tâches agentic et les capacités de raisonnement
- Il affiche la meilleure performance de code à 74,5 % sur SWE-bench Verified, avec d’excellents résultats en débogage précis de bases de code à grande échelle, refactorisation multi-fichiers, etc.
- Les utilisateurs réels comme Rakuten, GitHub, Windsurf soulignent une amélioration claire de la précision de correction du code, de l’efficacité du débogage quotidien et du benchmark des développeurs juniors
- Les performances sont plus affinées en environnement réel pour la refactorisation multi-fichiers et la correction détaillée de code
- Les utilisateurs d’Opus 4 peuvent utiliser Opus 4.1 sans coût supplémentaire via API, Claude Code, Amazon Bedrock, Google Vertex AI dès maintenant
Principales caractéristiques de Claude Opus 4.1
- En comparaison avec Claude Opus 4, les performances sont renforcées sur les tâches agentic, la production de code réelle et les tâches de raisonnement complexes
- Une amélioration encore plus importante est prévue dans les prochaines semaines
Principales améliorations
- SWE-bench Verified a atteint une performance de code de 74,5%
- Les capacités de recherche approfondie et d’analyse de données ont fortement progressé, notamment pour le suivi du détail fin et la recherche agentic
- Des résultats élevés sont également obtenus sur un benchmark de code réel de correction de bugs dans de grands dépôts open source
- Refactorisation multi-fichiers, débogage précis dans des bases de code à grande échelle, etc., optimisés pour le travail des développeurs professionnels
- Sur GitHub, Opus 4.1 améliore les performances de la plupart des fonctions par rapport à Opus 4, avec des gains particulièrement marqués en refactorisation de code multi-fichiers
- Rakuten Group apprécie la capacité d’Opus 4.1 à ne corriger que les parties strictement nécessaires dans une base de code massive, en préservant le style sans modifications inutiles ni introduction de bugs
- Windsurf indique qu’en benchmark de leurs développeurs juniors, Opus 4.1 améliore le score d’un écart-type par rapport à Opus 4, et que c’est un saut de performance comparable au passage de Sonnet 3.7 à Sonnet 4
Comparaison des performances par catégorie
- Agentic coding (SWE-bench Verified)
- Claude Opus 4.1: 74.5%
- Opus 4 précédent: 72.5%, Claude Sonnet 4: 72.7%
- OpenAI o3: 69.1%
- Gemini 2.5 Pro: 67.2%
- → Meilleure précision dans des corrections de code open source réelles
- Agentic terminal coding (Terminal-Bench)
- Claude Opus 4.1: 43.3% (meilleur)
- Opus 4: 39.2%
- Sonnet 4: 35.5%
- OpenAI o3: 30.2%
- Gemini 2.5 Pro: 25.3%
- Graduate-level reasoning (GPQA Diamond)
- Claude Opus 4.1: 80.9%
- Opus 4: 79.6%
- Sonnet 4: 75.4%
- OpenAI o3: 83.3% (meilleur)
- Gemini 2.5 Pro: 86.4% (meilleur)
- Agentic tool use (TAU-bench)
- Scénario Retail: Claude Opus 4.1 82.4% (meilleur), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
- Scénario Airline: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
- Gemini 2.5 Pro n’a pas publié de score dans cette catégorie
- Multilingual Q&A (MMMLU)
- Claude Opus 4.1: 89.5% (meilleur)
- Opus 4: 88.8%
- Sonnet 4: 86.5%
- OpenAI o3: 88.8%
- Gemini 2.5 Pro: non publié
- Visual reasoning (MMMU)
- Claude Opus 4.1: 77.1%
- Opus 4: 76.5%
- Sonnet 4: 74.4%
- OpenAI o3: 82.9% (meilleur)
- Gemini 2.5 Pro: 82% (meilleur)
- High school math competition (AIME 2025)
- Claude Opus 4.1: 78.0%
- Opus 4: 75.5%
- Sonnet 4: 70.5%
- OpenAI o3: 88.9% (meilleur)
- Gemini 2.5 Pro: 88% (meilleur)
-
Résumé du tableau de benchmarks
- Claude Opus 4.1 affiche une progression constante par rapport à sa version précédente et obtient les meilleurs scores sur les benchmarks opérationnels d’automatisation de code, de refactorisation multi-fichiers, de QA multilingue et d’usage d’outils
- Dans les domaines mathématiques, de raisonnement visuel et de raisonnement avancé (GPQA), OpenAI o3 et Gemini 2.5 Pro restent en avance, mais sur la productivité de code en conditions réelles et la QA multilingue, Claude Opus 4.1 demeure le plus performant
- Le scénario Airline (Agentic tool use) recule légèrement, et le raisonnement visuel et mathématique reste légèrement derrière certains modèles
Utilisation et déploiement en conditions réelles
- Les utilisateurs d’Opus 4 sont encouragés à passer directement à
claude-opus-4-1-20250805 via l’API
- API, Claude Code, Amazon Bedrock, Google Vertex AI et d’autres canaux permettent son déploiement et sa mise en pratique
- La politique tarifaire est identique à celle d’Opus 4, et une mise à niveau immédiate est recommandée pour les utilisateurs existants
- Les ressources telles que la fiche système, la description du modèle, la tarification, la documentation officielle, ainsi que les benchmarks détaillés et les méthodes d’évaluation sont publiés
Perspectives
- Opus 4.1 est une mise à jour progressive reflétant les derniers progrès en codage et en raisonnement, avec l’annonce d’un saut plus important dans les prochaines semaines
- Une amélioration continue des performances et une extension des fonctionnalités sont prévues, en prenant en compte les retours des utilisateurs
Références
- Les données de comparaison, les résultats de benchmarks avec des modèles concurrents récents comme OpenAI o3, Gemini 2.5 Pro, et la mention de l’usage du raisonnement étendu par modèle sont indiqués de manière transparente
Aucun commentaire pour le moment.