La critique de Claude 4.5 Opus par Simon Willison
(simonwillison.net)Claude Opus 4.5, et pourquoi l’évaluation des nouveaux LLM devient de plus en plus difficile
Le prix est très satisfaisant
- 5 $ par million de tokens en entrée, 25 $ par million de tokens en sortie
- Bien moins cher que le précédent Opus à 15 $/75 $
- Également compétitif face à la gamme GPT-5.1 (1,25 $/10 $) et à Gemini 3 Pro (2 $/12 $, ou 4 $/18 $ pour des achats de plus de 200 000 tokens)
Améliorations intéressantes parmi les changements d’Opus 4.5
- Opus 4.5 ajoute un nouveau paramètre
effort, réglé par défaut sur élevé - Prend en charge un
Computer useamélioré, avec notamment un zoom qui fournit un outil permettant de demander l’inspection d’une zone agrandie de l’écran - Les blocs de raisonnement des tours d’assistance précédents sont désormais conservés par défaut dans le contexte du modèle, contrairement à avant
Les difficultés de l’évaluation
- Il devient plus difficile de distinguer les performances des LLM de pointe
- Sur des benchmarks comme SWE-bench Verified, les modèles ne montrent plus que quelques points de pourcentage d’écart
- Mais cela n’explique pas quels résultats cela produit ni quelle différence cela fera lorsqu’on essaie de résoudre un problème réel
- En attendant, dessiner un pélican à vélo reste d’actualité.
2 commentaires
Traduction : https://rosettalens.com/s/ko/claude-opus
Chez Anthropic, le graphique des benchmarks d’Opus 4.5