Anthropic lance Claude Opus 4.7 - auto-vérification, vision 3,3x plus haute résolution, codage amélioré de 13 %

(anthropic.com)

2 points par minodevs 13 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Anthropic a lancé son modèle phare Claude Opus 4.7.

N°1 avec 87,6 % sur SWE-bench Verified (+6,8 points) et 64,3 % sur SWE-bench Pro, devant GPT-5.4 (57,7 %)
94,2 % sur GPQA Diamond, 69,4 % sur Terminal-Bench 2.0, 64,4 % sur Finance Agent
Amélioration de 13 % sur les benchmarks de codage par rapport à Opus 4.6, avec un taux de résolution des tâches de production multiplié par 3
Nouvelle fonction d'auto-vérification (Self-Verification) : le modèle conçoit et exécute lui-même des étapes de vérification avant de terminer une tâche
Vision 3,3x plus haute résolution (jusqu'à 2 576 px), avec un nouveau tokenizer
Ajout du niveau d'effort xhigh, amélioration de 14 % du raisonnement agentique, erreurs d'outils réduites à un tiers
Prix identique à celui d'Opus 4.6 ($5/$25 per MTok)
Anthropic reconnaît directement que ses performances restent inférieures à celles du modèle privé Mythos

Également disponible sur Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry.

À lire aussi