Anthropic dévoile Claude Opus 4.5

(anthropic.com)

8 points par GN⁺ 2025-11-25 | 2 commentaires | Partager sur WhatsApp

Claude Opus 4.5 est un modèle d’IA affichant des performances de tout premier plan pour l’écriture de code, l’exécution d’agents et l’utilisation de l’ordinateur
Il a obtenu le meilleur score sur le test réel de software engineering (SWE-bench Verified), avec de fortes améliorations en efficacité des tokens et en capacités de raisonnement
Le prix baisse à 5 $/25 $ par million de tokens, ce qui permet à davantage de développeurs et d’entreprises d’accéder à des capacités de niveau Opus
Avec le nouveau paramètre effort, la gestion du contexte et l’amélioration de l’usage des outils, Claude Developer Platform et Claude Code montent nettement en puissance
Le renforcement de la sécurité et de l’alignement, ainsi que l’amélioration de la résistance aux prompt injections, marquent un tournant pour la confiance dans l’usage de l’IA à l’échelle de l’industrie

Présentation de Claude Opus 4.5

Anthropic a présenté Claude Opus 4.5, qu’il décrit comme un modèle de rang mondial pour le code, les agents et l’utilisation de l’ordinateur
- Les performances progressent aussi sur les tâches du quotidien, comme la recherche, les présentations et le traitement de feuilles de calcul
- Il est présenté comme une étape qui élargit le champ de ce que les systèmes d’IA peuvent accomplir
Opus 4.5 a obtenu le meilleur score au test SWE-bench Verified
Disponible immédiatement dans l’application Anthropic, via l’API et sur les trois principaux clouds
- Nom du modèle dans l’API : claude-opus-4-5-20251101
- Prix : 5 $ en entrée / 25 $ en sortie (par million de tokens)

Retours des premiers utilisateurs et des tests

Les tests internes font état de progrès dans la gestion de problèmes ambigus et la résolution de bugs complexes
Les premiers utilisateurs de plusieurs entreprises ont partagé les retours suivants
- Amélioration de la qualité du code et division par deux de l’usage de tokens
- Excellentes performances en raisonnement multi-étapes, travail autonome de longue durée et workflows agentiques
- Efficacité améliorée de plus de 15 % par rapport à Sonnet 4.5
- Validation du potentiel pour mettre en œuvre des agents IA capables d’auto-amélioration
- Progrès dans des domaines variés comme l’automatisation Excel, la visualisation 3D, la revue de code et la génération d’histoires
- Baisse de 50 à 75 % des erreurs d’appel d’outils et des erreurs de build, avec des gains de vitesse rapportés

Évaluation des performances

Lors de l’examen interne de software engineering d’Anthropic, le modèle a dépassé le meilleur score des candidats humains
- Meilleure performance obtenue dans une limite de 2 heures
Les capacités en vision, raisonnement et mathématiques progressent globalement, atteignant l’état de l’art (SOTA) sur de nombreux benchmarks
Le test τ2-bench a mis en avant un exemple de résolution créative de problème
- Sans contourner la politique interdisant les modifications de billet d’avion, le modèle a trouvé une solution via une procédure légale (surclassement du siège puis modification de l’itinéraire)
- Le benchmark l’a comptabilisé comme un échec, mais Anthropic le cite comme exemple de raisonnement créatif

Amélioration de la sécurité et de l’alignement

Claude Opus 4.5 est le modèle publié par Anthropic le plus fortement aligné à ce jour
- Sa résistance aux attaques par prompt injection est décrite comme l’une des meilleures du secteur
- Il a aussi obtenu de bons résultats sur un benchmark d’attaque avancé développé par Gray Swan
Son score de concerning behavior est faible, ce qui réduit les risques de mauvais usage et de dysfonctionnement autonome
Les évaluations détaillées de sécurité et de performance figurent dans la system card de Claude Opus 4.5

Mise à jour de Claude Developer Platform

Opus 4.5 produit de meilleurs résultats avec moins de tokens
Le nouveau paramètre effort permet d’ajuster l’équilibre entre vitesse, coût et performance
- À un niveau d’effort intermédiaire, il offre les mêmes performances que Sonnet 4.5 avec 76 % de tokens de sortie en moins
- Au niveau d’effort maximal, il affiche 4,3 % de performances en plus que Sonnet 4.5 avec 48 % de tokens en moins
Les fonctions effort control, context compaction et usage avancé des outils améliorent l’efficacité sur les tâches longues
La gestion du contexte et les fonctions de mémoire apportent 15 % de gains sur les performances des tâches agentiques
La plateforme évolue progressivement vers une architecture modulaire et composable

Mises à jour produit

Claude Code, basé sur Opus 4.5, améliore la précision et la capacité d’exécution du Plan Mode
- Il génère un fichier plan.md avant l’exécution afin que l’utilisateur puisse le relire
- L’application desktop prend en charge l’exécution parallèle de plusieurs sessions
L’application Claude conserve le contexte grâce à une fonction de résumé automatique des longues conversations
Claude for Chrome est proposé à tous les utilisateurs Max
Claude for Excel étend sa bêta aux utilisateurs Max, Team et Enterprise
Le relèvement des limites d’usage dédiées à Opus 4.5 ouvre la voie à un usage quotidien au travail

Informations complémentaires

Toutes les évaluations (evals) ont été réalisées sur une moyenne de 5 exécutions avec un thinking budget de 64K, une fenêtre de contexte de 200K et le réglage effort par défaut (high)
Certains tests, comme SWE-bench Verified et Terminal Bench, utilisent des paramètres distincts
Les recherches associées et les résultats détaillés sont disponibles dans la system card de Claude Opus 4.5

Actualités liées

Claude a été intégré à Microsoft Foundry et Microsoft 365 Copilot
Microsoft, NVIDIA et Anthropic ont conclu un partenariat stratégique
- Anthropic prévoit d’acheter pour 30 milliards de dollars de capacité de calcul Azure et d’ajouter un contrat pouvant aller jusqu’à 1 GW
Partenariat avec le gouvernement rwandais et ALX pour développer la formation à l’IA en Afrique

2 commentaires

kaydash 2025-11-27

Il faut déjà payer le forfait 5G et s’abonner à Netflix, et maintenant il faut aussi s’abonner à l’IA, bouh bouh.

GN⁺ 2025-11-25

Avis Hacker News

Le point clé de cette annonce est la baisse de prix d’Opus 4.5
À $5/$25 par MTok, c’est environ 3 fois moins cher qu’Opus 4, ce qui en fait désormais non plus un « modèle à réserver aux tâches importantes », mais un modèle réellement exploitable en production
Ils affirment aussi une résistance aux prompt injections au niveau de l’état de l’art ; si les chiffres de la system card tiennent aussi face à des tests agressifs, c’est très significatif pour les opérateurs d’agents disposant d’un accès à des outils
En revanche, la formule « modèle le plus aligné » paraît un peu exagérée, et je serais curieux de voir les résultats de red team tierces
- Avec la sortie d’Opus 4.5, les limitations d’usage de Claude Code ont été assouplies
  Le plafond réservé à Opus a été supprimé, et les utilisateurs Max et Team Premium peuvent à nouveau utiliser un volume de tokens comparable à l’époque de Sonnet
  Ils disent avoir ajusté les quotas pour permettre d’utiliser Opus 4.5 dans le travail quotidien
- D’après les tests internes, Opus 4.5 revenait souvent moins cher que Sonnet à faire tourner
  Le coût moyen par thread pour l’équipe Amp était d’environ $1.83 avec Sonnet 4.5 contre $1.30 avec Opus 4.5
  L’économie principale vient moins du prix unitaire des tokens que de la réduction des erreurs grâce au gain d’intelligence
- Cette baisse de prix par 3 suggère sans doute qu’Opus 4.5 repose sur un modèle de base plus petit et plus spécialisé
  Le fine-tuning semble davantage optimisé pour les benchmarks, et je serais curieux de voir ses performances sur des tests non ciblés comme eqbench.com
- Avant, je voyais la section « Safety » comme une sorte d’avertissement de science-fiction, mais cette fois elle traite de problèmes concrets comme la prompt injection, ce qui était intéressant
  On dirait que le terme « sécurité » est en train d’évoluer vers un autre sens
- Mais Pliney the Liberator aurait déjà réussi un jailbreak
  Cela n’a peut-être rien à voir avec la résistance aux prompt injections
Ce modèle sera probablement révolutionnaire pendant 2 à 4 semaines, puis il sera « nerfé »
Ensuite, pendant quelques mois, ceux qui signaleront une baisse de performance seront accusés de « manque de compétence », puis un ingénieur annoncera avoir trouvé « quelques bugs », avant l’arrivée d’Opus 4.7
Désormais, ma fidélité se mesure en cycles de nerf
- Il se peut aussi que ce ne soit pas une vraie baisse, mais une illusion cognitive
  Car les benchmarks ne montrent aucune preuve de régression
  Si la baisse perçue par les humains est réelle, cela suggère l’existence d’un facteur x que les benchmarks ne capturent pas
- C’est pour ça que je suis passé à Gemini
  Depuis la génération v2.5, il n’y a pas eu de dégradation, et je soupçonne Anthropic de remplacer ses modèles par des versions quantifiées
- Aussi absurde que cela paraisse, c’est peut-être en réalité une ressortie d’Opus 4.0
- Ce phénomène correspond aussi au schéma de comportement du CEO
- Claude semble probablement mener en douce des expériences de compression de contexte
  La baisse est moins perceptible sur les requêtes isolées peu dépendantes du contexte
J’ai essayé Gemini 3 Pro dans Cursor, et c’est bien plus faible que Sonnet 4.5
Il y a eu des problèmes que seul Claude Code a su résoudre, et Sonnet 4.5 fonctionne particulièrement bien dans Cursor
Je pense qu’Anthropic a eu raison de choisir une stratégie centrée sur l’ingénierie logicielle
C’est le modèle que j’attends le plus pour 2026
- Les modèles Claude disposent d’outils intégrés comme str_replace_editor
  Cursor ne propose pas ce genre d’outils, d’où l’écart de performance
  Voir le tweet correspondant ici
- Mon workflow consistait à concevoir avec Gemini, puis à implémenter avec Sonnet
- Personnellement, je ne comprends pas le hype excessif autour de Gemini
  Opus/Sonnet/GPT sont bien mieux adaptés aux workflows agentiques
- J’ai créé un side project avec l’API Gemini 2.5 Pro, mais la constance dans l’exécution des consignes et les erreurs de dépassement de ressources posaient problème
  Azure GPT-4.1, Bedrock Sonnet 4 et Perplexity étaient bien plus stables
  Je serais curieux d’avoir le retour d’autres personnes
- J’ai donné à Sonnet 4.5 un PHP serialize() JSON encodé en base64 en lui demandant d’extraire les URL, et il m’a renvoyé le lien YouTube de Rick Astley
La system card de Claude Opus 4.5 est bien plus détaillée qu’un billet de blog marketing
C’est un PDF de 150 pages, et la section sur la tromperie (deception) est particulièrement intéressante
Par exemple, il y a un cas où le modèle reçoit une information sur le démantèlement de l’équipe sécurité d’Anthropic, puis choisit de la cacher à l’utilisateur
Les risques liés au CBRN y sont aussi abordés ; Opus reste pour l’instant au niveau ASL-3, donc sans risque massif
J’en ai fait un résumé sur mon blog ici
Je suis vraiment ravi de voir ces résultats de benchmark
Grâce à eux, je peux conserver mon agent de code actuel
Dans un environnement IA qui évolue si vite, il devenait de plus en plus difficile de suivre sans FOMO, et cette fois Anthropic prouve à nouveau sa compétitivité
- On dirait qu’on est arrivé à un stade où on peut ignorer le hype sans prendre de retard
  La combinaison Sonnet + Claude Code était déjà suffisamment stable, et depuis la 4.5 c’est automatiquement devenu meilleur
  J’ignore simplement la tentation de passer à Codex
- Moi, je suis passé chez OpenAI à cause des limitations tarifaires
  Même si Claude produit un code légèrement meilleur, GPT permet des requêtes illimitées, ce qui offre plus de liberté pour expérimenter
- Utiliser plusieurs outils en parallèle n’apporte pas de gros gains de productivité
  Opus représente un progrès significatif, mais sans doute pas un changement fondamental de workflow
- J’apprécie aussi l’orientation favorable aux développeurs chez Anthropic
  J’espère qu’ils tiendront bon face à la concurrence
- J’ai essayé Codex aussi, mais je suis finalement revenu à Claude Code
  Je n’utilise Codex que temporairement quand je suis limité
Les fonctions avancées liées aux outils d’Opus 4.5 m’ont particulièrement impressionné
D’après le document Advanced Tool Use, il peut faire de la recherche d’outils, des appels programmatiques et de l’apprentissage par exemples in-context
Il paraît qu’ils ont utilisé à eux seuls 130 000 tokens de définitions d’outils, ce qui est impressionnant
La vidéo de démonstration du puzzle game était aussi intéressante
J’ai lu la review d’Opus par Simon Willison
- L’évolution progressive est difficile à percevoir sur de grosses bases de code
  Pour la plupart des tâches, l’écart vient davantage du tooling que du modèle
- Je me demande s’ils ont vraiment écrit eux-mêmes la bibliothèque qui convertit la sortie terminal en HTML
- Je me demande aussi s’ils ne sont pas en train d’entraîner le modèle sur les données de benchmark
- Il y a une erreur dans l’affichage du prix de Haiku — c’est bien $1/$5
- Suggestion de correction : There model → Their model
Quand on regarde le classement ARC-AGI-2, la comparaison performance/coût entre modèles saute aux yeux
Opus 4.5 obtient d’excellents résultats face à Gemini 3 ; Gemini 3 Deep Think reste premier, mais pour un coût plus de 30 fois supérieur
En décembre 2024, quand OpenAI a dépassé les performances humaines sur ARC-AGI-1, cela coûtait $3,000 par tâche ; aujourd’hui, on est tombé à quelques dollars, soit une réduction d’un facteur 80
Voir le classement et le billet associé
- À noter que Gemini 3 Pro est sans outils, tandis que Deep Think est la version avec outils
  À accès aux outils égal, l’écart entre les deux modèles se réduit
J’ai l’impression que le rythme d’amélioration des LLM a ralenti récemment
Les gains en précision sont faibles, mais les améliorations d’efficacité restent importantes
Dernièrement, Sonnet 4.5 me paraît devenu plus bête
Il n’arrivait même plus à gérer correctement du CSS simple
Le fait qu’Opus soit 3 fois moins cher est une bonne nouvelle, mais il reste indisponible dans l’abonnement Claude Code Pro
La commande /model opusplan permet d’utiliser Opus à l’étape de planification, mais cela consomme des crédits, ce qui manque de transparence
Une simple correction CSS m’a coûté $0.95, c’est beaucoup trop cher
À l’avenir, je vais sans doute alterner manuellement entre Opus et Sonnet
- La qualité de Sonnet 4.5 semble proportionnelle à la profondeur de recherche, comme un moteur d’échecs
  Aux heures de pointe, une dégradation paraît inévitable ; j’aimerais bien qu’il y ait un indicateur de charge
- Depuis quelques jours, on a vraiment l’impression qu’il est moins intelligent
  Soit ils l’ont volontairement abaissé pour promouvoir le nouveau modèle, soit la hausse de charge due aux crédits gratuits distribués les a poussés à faire tourner une version quantifiée
  Le manque de transparence et de stabilité d’Anthropic est frustrant
- Il y a sans doute un basculement vers un modèle low-cost en cas de surcharge de trafic
- Le vendredi en particulier, j’ai vu des réponses constamment stupides
  Je pensais au départ à une simple erreur temporaire, mais j’ai l’impression que quelque chose a changé