Anthropic dévoile Claude Opus 4.1

(anthropic.com)

7 points par GN⁺ 2025-08-06 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Claude Opus 4.1 est une version améliorée qui renforce le codage en production, les tâches agentic et les capacités de raisonnement
Il affiche la meilleure performance de code à 74,5 % sur SWE-bench Verified, avec d’excellents résultats en débogage précis de bases de code à grande échelle, refactorisation multi-fichiers, etc.
Les utilisateurs réels comme Rakuten, GitHub, Windsurf soulignent une amélioration claire de la précision de correction du code, de l’efficacité du débogage quotidien et du benchmark des développeurs juniors
Les performances sont plus affinées en environnement réel pour la refactorisation multi-fichiers et la correction détaillée de code
Les utilisateurs d’Opus 4 peuvent utiliser Opus 4.1 sans coût supplémentaire via API, Claude Code, Amazon Bedrock, Google Vertex AI dès maintenant

Principales caractéristiques de Claude Opus 4.1

En comparaison avec Claude Opus 4, les performances sont renforcées sur les tâches agentic, la production de code réelle et les tâches de raisonnement complexes
Une amélioration encore plus importante est prévue dans les prochaines semaines

Principales améliorations

SWE-bench Verified a atteint une performance de code de 74,5%
- Les capacités de recherche approfondie et d’analyse de données ont fortement progressé, notamment pour le suivi du détail fin et la recherche agentic
- Des résultats élevés sont également obtenus sur un benchmark de code réel de correction de bugs dans de grands dépôts open source
Refactorisation multi-fichiers, débogage précis dans des bases de code à grande échelle, etc., optimisés pour le travail des développeurs professionnels
- Sur GitHub, Opus 4.1 améliore les performances de la plupart des fonctions par rapport à Opus 4, avec des gains particulièrement marqués en refactorisation de code multi-fichiers
- Rakuten Group apprécie la capacité d’Opus 4.1 à ne corriger que les parties strictement nécessaires dans une base de code massive, en préservant le style sans modifications inutiles ni introduction de bugs
- Windsurf indique qu’en benchmark de leurs développeurs juniors, Opus 4.1 améliore le score d’un écart-type par rapport à Opus 4, et que c’est un saut de performance comparable au passage de Sonnet 3.7 à Sonnet 4

Comparaison des performances par catégorie

Agentic coding (SWE-bench Verified)
- Claude Opus 4.1: 74.5%
- Opus 4 précédent: 72.5%, Claude Sonnet 4: 72.7%
- OpenAI o3: 69.1%
- Gemini 2.5 Pro: 67.2%
- → Meilleure précision dans des corrections de code open source réelles
Agentic terminal coding (Terminal-Bench)
- Claude Opus 4.1: 43.3% (meilleur)
- Opus 4: 39.2%
- Sonnet 4: 35.5%
- OpenAI o3: 30.2%
- Gemini 2.5 Pro: 25.3%
Graduate-level reasoning (GPQA Diamond)
- Claude Opus 4.1: 80.9%
- Opus 4: 79.6%
- Sonnet 4: 75.4%
- OpenAI o3: 83.3% (meilleur)
- Gemini 2.5 Pro: 86.4% (meilleur)
Agentic tool use (TAU-bench)
- Scénario Retail: Claude Opus 4.1 82.4% (meilleur), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
- Scénario Airline: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
- Gemini 2.5 Pro n’a pas publié de score dans cette catégorie
Multilingual Q&A (MMMLU)
- Claude Opus 4.1: 89.5% (meilleur)
- Opus 4: 88.8%
- Sonnet 4: 86.5%
- OpenAI o3: 88.8%
- Gemini 2.5 Pro: non publié
Visual reasoning (MMMU)
- Claude Opus 4.1: 77.1%
- Opus 4: 76.5%
- Sonnet 4: 74.4%
- OpenAI o3: 82.9% (meilleur)
- Gemini 2.5 Pro: 82% (meilleur)
High school math competition (AIME 2025)
- Claude Opus 4.1: 78.0%
- Opus 4: 75.5%
- Sonnet 4: 70.5%
- OpenAI o3: 88.9% (meilleur)
- Gemini 2.5 Pro: 88% (meilleur)
Résumé du tableau de benchmarks
- Claude Opus 4.1 affiche une progression constante par rapport à sa version précédente et obtient les meilleurs scores sur les benchmarks opérationnels d’automatisation de code, de refactorisation multi-fichiers, de QA multilingue et d’usage d’outils
- Dans les domaines mathématiques, de raisonnement visuel et de raisonnement avancé (GPQA), OpenAI o3 et Gemini 2.5 Pro restent en avance, mais sur la productivité de code en conditions réelles et la QA multilingue, Claude Opus 4.1 demeure le plus performant
- Le scénario Airline (Agentic tool use) recule légèrement, et le raisonnement visuel et mathématique reste légèrement derrière certains modèles

Utilisation et déploiement en conditions réelles

Les utilisateurs d’Opus 4 sont encouragés à passer directement à claude-opus-4-1-20250805 via l’API
API, Claude Code, Amazon Bedrock, Google Vertex AI et d’autres canaux permettent son déploiement et sa mise en pratique
La politique tarifaire est identique à celle d’Opus 4, et une mise à niveau immédiate est recommandée pour les utilisateurs existants
Les ressources telles que la fiche système, la description du modèle, la tarification, la documentation officielle, ainsi que les benchmarks détaillés et les méthodes d’évaluation sont publiés

Perspectives

Opus 4.1 est une mise à jour progressive reflétant les derniers progrès en codage et en raisonnement, avec l’annonce d’un saut plus important dans les prochaines semaines
Une amélioration continue des performances et une extension des fonctionnalités sont prévues, en prenant en compte les retours des utilisateurs

Références

Les données de comparaison, les résultats de benchmarks avec des modèles concurrents récents comme OpenAI o3, Gemini 2.5 Pro, et la mention de l’usage du raisonnement étendu par modèle sont indiqués de manière transparente

Anthropic dévoile Claude Opus 4.1

Principales caractéristiques de Claude Opus 4.1

Principales améliorations

Comparaison des performances par catégorie

Résumé du tableau de benchmarks

Utilisation et déploiement en conditions réelles

Perspectives

Références

À lire aussi

Aucun commentaire pour le moment.