- Claude Opus 4.5 est un modèle d’IA affichant des performances de tout premier plan pour l’écriture de code, l’exécution d’agents et l’utilisation de l’ordinateur
- Il a obtenu le meilleur score sur le test réel de software engineering (SWE-bench Verified), avec de fortes améliorations en efficacité des tokens et en capacités de raisonnement
- Le prix baisse à 5 $/25 $ par million de tokens, ce qui permet à davantage de développeurs et d’entreprises d’accéder à des capacités de niveau Opus
- Avec le nouveau paramètre
effort, la gestion du contexte et l’amélioration de l’usage des outils, Claude Developer Platform et Claude Code montent nettement en puissance
- Le renforcement de la sécurité et de l’alignement, ainsi que l’amélioration de la résistance aux prompt injections, marquent un tournant pour la confiance dans l’usage de l’IA à l’échelle de l’industrie
Présentation de Claude Opus 4.5
- Anthropic a présenté Claude Opus 4.5, qu’il décrit comme un modèle de rang mondial pour le code, les agents et l’utilisation de l’ordinateur
- Les performances progressent aussi sur les tâches du quotidien, comme la recherche, les présentations et le traitement de feuilles de calcul
- Il est présenté comme une étape qui élargit le champ de ce que les systèmes d’IA peuvent accomplir
- Opus 4.5 a obtenu le meilleur score au test SWE-bench Verified
- Disponible immédiatement dans l’application Anthropic, via l’API et sur les trois principaux clouds
- Nom du modèle dans l’API :
claude-opus-4-5-20251101
- Prix : 5 $ en entrée / 25 $ en sortie (par million de tokens)
Retours des premiers utilisateurs et des tests
- Les tests internes font état de progrès dans la gestion de problèmes ambigus et la résolution de bugs complexes
- Les premiers utilisateurs de plusieurs entreprises ont partagé les retours suivants
- Amélioration de la qualité du code et division par deux de l’usage de tokens
- Excellentes performances en raisonnement multi-étapes, travail autonome de longue durée et workflows agentiques
- Efficacité améliorée de plus de 15 % par rapport à Sonnet 4.5
- Validation du potentiel pour mettre en œuvre des agents IA capables d’auto-amélioration
- Progrès dans des domaines variés comme l’automatisation Excel, la visualisation 3D, la revue de code et la génération d’histoires
- Baisse de 50 à 75 % des erreurs d’appel d’outils et des erreurs de build, avec des gains de vitesse rapportés
Évaluation des performances
- Lors de l’examen interne de software engineering d’Anthropic, le modèle a dépassé le meilleur score des candidats humains
- Meilleure performance obtenue dans une limite de 2 heures
- Les capacités en vision, raisonnement et mathématiques progressent globalement, atteignant l’état de l’art (SOTA) sur de nombreux benchmarks
- Le test τ2-bench a mis en avant un exemple de résolution créative de problème
- Sans contourner la politique interdisant les modifications de billet d’avion, le modèle a trouvé une solution via une procédure légale (surclassement du siège puis modification de l’itinéraire)
- Le benchmark l’a comptabilisé comme un échec, mais Anthropic le cite comme exemple de raisonnement créatif
Amélioration de la sécurité et de l’alignement
- Claude Opus 4.5 est le modèle publié par Anthropic le plus fortement aligné à ce jour
- Sa résistance aux attaques par prompt injection est décrite comme l’une des meilleures du secteur
- Il a aussi obtenu de bons résultats sur un benchmark d’attaque avancé développé par Gray Swan
- Son score de concerning behavior est faible, ce qui réduit les risques de mauvais usage et de dysfonctionnement autonome
- Les évaluations détaillées de sécurité et de performance figurent dans la system card de Claude Opus 4.5
Mise à jour de Claude Developer Platform
- Opus 4.5 produit de meilleurs résultats avec moins de tokens
- Le nouveau paramètre
effort permet d’ajuster l’équilibre entre vitesse, coût et performance
- À un niveau d’effort intermédiaire, il offre les mêmes performances que Sonnet 4.5 avec 76 % de tokens de sortie en moins
- Au niveau d’effort maximal, il affiche 4,3 % de performances en plus que Sonnet 4.5 avec 48 % de tokens en moins
- Les fonctions effort control, context compaction et usage avancé des outils améliorent l’efficacité sur les tâches longues
- La gestion du contexte et les fonctions de mémoire apportent 15 % de gains sur les performances des tâches agentiques
- La plateforme évolue progressivement vers une architecture modulaire et composable
Mises à jour produit
- Claude Code, basé sur Opus 4.5, améliore la précision et la capacité d’exécution du Plan Mode
- Il génère un fichier
plan.md avant l’exécution afin que l’utilisateur puisse le relire
- L’application desktop prend en charge l’exécution parallèle de plusieurs sessions
- L’application Claude conserve le contexte grâce à une fonction de résumé automatique des longues conversations
- Claude for Chrome est proposé à tous les utilisateurs Max
- Claude for Excel étend sa bêta aux utilisateurs Max, Team et Enterprise
- Le relèvement des limites d’usage dédiées à Opus 4.5 ouvre la voie à un usage quotidien au travail
Informations complémentaires
- Toutes les évaluations (evals) ont été réalisées sur une moyenne de 5 exécutions avec un thinking budget de 64K, une fenêtre de contexte de 200K et le réglage
effort par défaut (high)
- Certains tests, comme SWE-bench Verified et Terminal Bench, utilisent des paramètres distincts
- Les recherches associées et les résultats détaillés sont disponibles dans la system card de Claude Opus 4.5
Actualités liées
- Claude a été intégré à Microsoft Foundry et Microsoft 365 Copilot
- Microsoft, NVIDIA et Anthropic ont conclu un partenariat stratégique
- Anthropic prévoit d’acheter pour 30 milliards de dollars de capacité de calcul Azure et d’ajouter un contrat pouvant aller jusqu’à 1 GW
- Partenariat avec le gouvernement rwandais et ALX pour développer la formation à l’IA en Afrique
2 commentaires
Il faut déjà payer le forfait 5G et s’abonner à Netflix, et maintenant il faut aussi s’abonner à l’IA, bouh bouh.
Avis Hacker News
Le point clé de cette annonce est la baisse de prix d’Opus 4.5
À $5/$25 par MTok, c’est environ 3 fois moins cher qu’Opus 4, ce qui en fait désormais non plus un « modèle à réserver aux tâches importantes », mais un modèle réellement exploitable en production
Ils affirment aussi une résistance aux prompt injections au niveau de l’état de l’art ; si les chiffres de la system card tiennent aussi face à des tests agressifs, c’est très significatif pour les opérateurs d’agents disposant d’un accès à des outils
En revanche, la formule « modèle le plus aligné » paraît un peu exagérée, et je serais curieux de voir les résultats de red team tierces
Le plafond réservé à Opus a été supprimé, et les utilisateurs Max et Team Premium peuvent à nouveau utiliser un volume de tokens comparable à l’époque de Sonnet
Ils disent avoir ajusté les quotas pour permettre d’utiliser Opus 4.5 dans le travail quotidien
Le coût moyen par thread pour l’équipe Amp était d’environ $1.83 avec Sonnet 4.5 contre $1.30 avec Opus 4.5
L’économie principale vient moins du prix unitaire des tokens que de la réduction des erreurs grâce au gain d’intelligence
Le fine-tuning semble davantage optimisé pour les benchmarks, et je serais curieux de voir ses performances sur des tests non ciblés comme eqbench.com
On dirait que le terme « sécurité » est en train d’évoluer vers un autre sens
Cela n’a peut-être rien à voir avec la résistance aux prompt injections
Ce modèle sera probablement révolutionnaire pendant 2 à 4 semaines, puis il sera « nerfé »
Ensuite, pendant quelques mois, ceux qui signaleront une baisse de performance seront accusés de « manque de compétence », puis un ingénieur annoncera avoir trouvé « quelques bugs », avant l’arrivée d’Opus 4.7
Désormais, ma fidélité se mesure en cycles de nerf
Car les benchmarks ne montrent aucune preuve de régression
Si la baisse perçue par les humains est réelle, cela suggère l’existence d’un facteur x que les benchmarks ne capturent pas
Depuis la génération v2.5, il n’y a pas eu de dégradation, et je soupçonne Anthropic de remplacer ses modèles par des versions quantifiées
La baisse est moins perceptible sur les requêtes isolées peu dépendantes du contexte
J’ai essayé Gemini 3 Pro dans Cursor, et c’est bien plus faible que Sonnet 4.5
Il y a eu des problèmes que seul Claude Code a su résoudre, et Sonnet 4.5 fonctionne particulièrement bien dans Cursor
Je pense qu’Anthropic a eu raison de choisir une stratégie centrée sur l’ingénierie logicielle
C’est le modèle que j’attends le plus pour 2026
str_replace_editorCursor ne propose pas ce genre d’outils, d’où l’écart de performance
Voir le tweet correspondant ici
Opus/Sonnet/GPT sont bien mieux adaptés aux workflows agentiques
Azure GPT-4.1, Bedrock Sonnet 4 et Perplexity étaient bien plus stables
Je serais curieux d’avoir le retour d’autres personnes
La system card de Claude Opus 4.5 est bien plus détaillée qu’un billet de blog marketing
C’est un PDF de 150 pages, et la section sur la tromperie (deception) est particulièrement intéressante
Par exemple, il y a un cas où le modèle reçoit une information sur le démantèlement de l’équipe sécurité d’Anthropic, puis choisit de la cacher à l’utilisateur
Les risques liés au CBRN y sont aussi abordés ; Opus reste pour l’instant au niveau ASL-3, donc sans risque massif
J’en ai fait un résumé sur mon blog ici
Je suis vraiment ravi de voir ces résultats de benchmark
Grâce à eux, je peux conserver mon agent de code actuel
Dans un environnement IA qui évolue si vite, il devenait de plus en plus difficile de suivre sans FOMO, et cette fois Anthropic prouve à nouveau sa compétitivité
La combinaison Sonnet + Claude Code était déjà suffisamment stable, et depuis la 4.5 c’est automatiquement devenu meilleur
J’ignore simplement la tentation de passer à Codex
Même si Claude produit un code légèrement meilleur, GPT permet des requêtes illimitées, ce qui offre plus de liberté pour expérimenter
Opus représente un progrès significatif, mais sans doute pas un changement fondamental de workflow
J’espère qu’ils tiendront bon face à la concurrence
Je n’utilise Codex que temporairement quand je suis limité
Les fonctions avancées liées aux outils d’Opus 4.5 m’ont particulièrement impressionné
D’après le document Advanced Tool Use, il peut faire de la recherche d’outils, des appels programmatiques et de l’apprentissage par exemples in-context
Il paraît qu’ils ont utilisé à eux seuls 130 000 tokens de définitions d’outils, ce qui est impressionnant
La vidéo de démonstration du puzzle game était aussi intéressante
J’ai lu la review d’Opus par Simon Willison
Pour la plupart des tâches, l’écart vient davantage du tooling que du modèle
There model→Their modelQuand on regarde le classement ARC-AGI-2, la comparaison performance/coût entre modèles saute aux yeux
Opus 4.5 obtient d’excellents résultats face à Gemini 3 ; Gemini 3 Deep Think reste premier, mais pour un coût plus de 30 fois supérieur
En décembre 2024, quand OpenAI a dépassé les performances humaines sur ARC-AGI-1, cela coûtait $3,000 par tâche ; aujourd’hui, on est tombé à quelques dollars, soit une réduction d’un facteur 80
Voir le classement et le billet associé
À accès aux outils égal, l’écart entre les deux modèles se réduit
J’ai l’impression que le rythme d’amélioration des LLM a ralenti récemment
Les gains en précision sont faibles, mais les améliorations d’efficacité restent importantes
Dernièrement, Sonnet 4.5 me paraît devenu plus bête
Il n’arrivait même plus à gérer correctement du CSS simple
Le fait qu’Opus soit 3 fois moins cher est une bonne nouvelle, mais il reste indisponible dans l’abonnement Claude Code Pro
La commande
/model opusplanpermet d’utiliser Opus à l’étape de planification, mais cela consomme des crédits, ce qui manque de transparenceUne simple correction CSS m’a coûté $0.95, c’est beaucoup trop cher
À l’avenir, je vais sans doute alterner manuellement entre Opus et Sonnet
Aux heures de pointe, une dégradation paraît inévitable ; j’aimerais bien qu’il y ait un indicateur de charge
Soit ils l’ont volontairement abaissé pour promouvoir le nouveau modèle, soit la hausse de charge due aux crédits gratuits distribués les a poussés à faire tourner une version quantifiée
Le manque de transparence et de stabilité d’Anthropic est frustrant
Je pensais au départ à une simple erreur temporaire, mais j’ai l’impression que quelque chose a changé