8 points par GN⁺ 2025-11-25 | 2 commentaires | Partager sur WhatsApp
  • Claude Opus 4.5 est un modèle d’IA affichant des performances de tout premier plan pour l’écriture de code, l’exécution d’agents et l’utilisation de l’ordinateur
  • Il a obtenu le meilleur score sur le test réel de software engineering (SWE-bench Verified), avec de fortes améliorations en efficacité des tokens et en capacités de raisonnement
  • Le prix baisse à 5 $/25 $ par million de tokens, ce qui permet à davantage de développeurs et d’entreprises d’accéder à des capacités de niveau Opus
  • Avec le nouveau paramètre effort, la gestion du contexte et l’amélioration de l’usage des outils, Claude Developer Platform et Claude Code montent nettement en puissance
  • Le renforcement de la sécurité et de l’alignement, ainsi que l’amélioration de la résistance aux prompt injections, marquent un tournant pour la confiance dans l’usage de l’IA à l’échelle de l’industrie

Présentation de Claude Opus 4.5

  • Anthropic a présenté Claude Opus 4.5, qu’il décrit comme un modèle de rang mondial pour le code, les agents et l’utilisation de l’ordinateur
    • Les performances progressent aussi sur les tâches du quotidien, comme la recherche, les présentations et le traitement de feuilles de calcul
    • Il est présenté comme une étape qui élargit le champ de ce que les systèmes d’IA peuvent accomplir
  • Opus 4.5 a obtenu le meilleur score au test SWE-bench Verified
  • Disponible immédiatement dans l’application Anthropic, via l’API et sur les trois principaux clouds
    • Nom du modèle dans l’API : claude-opus-4-5-20251101
    • Prix : 5 $ en entrée / 25 $ en sortie (par million de tokens)

Retours des premiers utilisateurs et des tests

  • Les tests internes font état de progrès dans la gestion de problèmes ambigus et la résolution de bugs complexes
  • Les premiers utilisateurs de plusieurs entreprises ont partagé les retours suivants
    • Amélioration de la qualité du code et division par deux de l’usage de tokens
    • Excellentes performances en raisonnement multi-étapes, travail autonome de longue durée et workflows agentiques
    • Efficacité améliorée de plus de 15 % par rapport à Sonnet 4.5
    • Validation du potentiel pour mettre en œuvre des agents IA capables d’auto-amélioration
    • Progrès dans des domaines variés comme l’automatisation Excel, la visualisation 3D, la revue de code et la génération d’histoires
    • Baisse de 50 à 75 % des erreurs d’appel d’outils et des erreurs de build, avec des gains de vitesse rapportés

Évaluation des performances

  • Lors de l’examen interne de software engineering d’Anthropic, le modèle a dépassé le meilleur score des candidats humains
    • Meilleure performance obtenue dans une limite de 2 heures
  • Les capacités en vision, raisonnement et mathématiques progressent globalement, atteignant l’état de l’art (SOTA) sur de nombreux benchmarks
  • Le test τ2-bench a mis en avant un exemple de résolution créative de problème
    • Sans contourner la politique interdisant les modifications de billet d’avion, le modèle a trouvé une solution via une procédure légale (surclassement du siège puis modification de l’itinéraire)
    • Le benchmark l’a comptabilisé comme un échec, mais Anthropic le cite comme exemple de raisonnement créatif

Amélioration de la sécurité et de l’alignement

  • Claude Opus 4.5 est le modèle publié par Anthropic le plus fortement aligné à ce jour
    • Sa résistance aux attaques par prompt injection est décrite comme l’une des meilleures du secteur
    • Il a aussi obtenu de bons résultats sur un benchmark d’attaque avancé développé par Gray Swan
  • Son score de concerning behavior est faible, ce qui réduit les risques de mauvais usage et de dysfonctionnement autonome
  • Les évaluations détaillées de sécurité et de performance figurent dans la system card de Claude Opus 4.5

Mise à jour de Claude Developer Platform

  • Opus 4.5 produit de meilleurs résultats avec moins de tokens
  • Le nouveau paramètre effort permet d’ajuster l’équilibre entre vitesse, coût et performance
    • À un niveau d’effort intermédiaire, il offre les mêmes performances que Sonnet 4.5 avec 76 % de tokens de sortie en moins
    • Au niveau d’effort maximal, il affiche 4,3 % de performances en plus que Sonnet 4.5 avec 48 % de tokens en moins
  • Les fonctions effort control, context compaction et usage avancé des outils améliorent l’efficacité sur les tâches longues
  • La gestion du contexte et les fonctions de mémoire apportent 15 % de gains sur les performances des tâches agentiques
  • La plateforme évolue progressivement vers une architecture modulaire et composable

Mises à jour produit

  • Claude Code, basé sur Opus 4.5, améliore la précision et la capacité d’exécution du Plan Mode
    • Il génère un fichier plan.md avant l’exécution afin que l’utilisateur puisse le relire
    • L’application desktop prend en charge l’exécution parallèle de plusieurs sessions
  • L’application Claude conserve le contexte grâce à une fonction de résumé automatique des longues conversations
  • Claude for Chrome est proposé à tous les utilisateurs Max
  • Claude for Excel étend sa bêta aux utilisateurs Max, Team et Enterprise
  • Le relèvement des limites d’usage dédiées à Opus 4.5 ouvre la voie à un usage quotidien au travail

Informations complémentaires

  • Toutes les évaluations (evals) ont été réalisées sur une moyenne de 5 exécutions avec un thinking budget de 64K, une fenêtre de contexte de 200K et le réglage effort par défaut (high)
  • Certains tests, comme SWE-bench Verified et Terminal Bench, utilisent des paramètres distincts
  • Les recherches associées et les résultats détaillés sont disponibles dans la system card de Claude Opus 4.5

Actualités liées

  • Claude a été intégré à Microsoft Foundry et Microsoft 365 Copilot
  • Microsoft, NVIDIA et Anthropic ont conclu un partenariat stratégique
    • Anthropic prévoit d’acheter pour 30 milliards de dollars de capacité de calcul Azure et d’ajouter un contrat pouvant aller jusqu’à 1 GW
  • Partenariat avec le gouvernement rwandais et ALX pour développer la formation à l’IA en Afrique

2 commentaires

 
kaydash 2025-11-27

Il faut déjà payer le forfait 5G et s’abonner à Netflix, et maintenant il faut aussi s’abonner à l’IA, bouh bouh.

 
GN⁺ 2025-11-25
Avis Hacker News
  • Le point clé de cette annonce est la baisse de prix d’Opus 4.5
    À $5/$25 par MTok, c’est environ 3 fois moins cher qu’Opus 4, ce qui en fait désormais non plus un « modèle à réserver aux tâches importantes », mais un modèle réellement exploitable en production
    Ils affirment aussi une résistance aux prompt injections au niveau de l’état de l’art ; si les chiffres de la system card tiennent aussi face à des tests agressifs, c’est très significatif pour les opérateurs d’agents disposant d’un accès à des outils
    En revanche, la formule « modèle le plus aligné » paraît un peu exagérée, et je serais curieux de voir les résultats de red team tierces

    • Avec la sortie d’Opus 4.5, les limitations d’usage de Claude Code ont été assouplies
      Le plafond réservé à Opus a été supprimé, et les utilisateurs Max et Team Premium peuvent à nouveau utiliser un volume de tokens comparable à l’époque de Sonnet
      Ils disent avoir ajusté les quotas pour permettre d’utiliser Opus 4.5 dans le travail quotidien
    • D’après les tests internes, Opus 4.5 revenait souvent moins cher que Sonnet à faire tourner
      Le coût moyen par thread pour l’équipe Amp était d’environ $1.83 avec Sonnet 4.5 contre $1.30 avec Opus 4.5
      L’économie principale vient moins du prix unitaire des tokens que de la réduction des erreurs grâce au gain d’intelligence
    • Cette baisse de prix par 3 suggère sans doute qu’Opus 4.5 repose sur un modèle de base plus petit et plus spécialisé
      Le fine-tuning semble davantage optimisé pour les benchmarks, et je serais curieux de voir ses performances sur des tests non ciblés comme eqbench.com
    • Avant, je voyais la section « Safety » comme une sorte d’avertissement de science-fiction, mais cette fois elle traite de problèmes concrets comme la prompt injection, ce qui était intéressant
      On dirait que le terme « sécurité » est en train d’évoluer vers un autre sens
    • Mais Pliney the Liberator aurait déjà réussi un jailbreak
      Cela n’a peut-être rien à voir avec la résistance aux prompt injections
  • Ce modèle sera probablement révolutionnaire pendant 2 à 4 semaines, puis il sera « nerfé »
    Ensuite, pendant quelques mois, ceux qui signaleront une baisse de performance seront accusés de « manque de compétence », puis un ingénieur annoncera avoir trouvé « quelques bugs », avant l’arrivée d’Opus 4.7
    Désormais, ma fidélité se mesure en cycles de nerf

    • Il se peut aussi que ce ne soit pas une vraie baisse, mais une illusion cognitive
      Car les benchmarks ne montrent aucune preuve de régression
      Si la baisse perçue par les humains est réelle, cela suggère l’existence d’un facteur x que les benchmarks ne capturent pas
    • C’est pour ça que je suis passé à Gemini
      Depuis la génération v2.5, il n’y a pas eu de dégradation, et je soupçonne Anthropic de remplacer ses modèles par des versions quantifiées
    • Aussi absurde que cela paraisse, c’est peut-être en réalité une ressortie d’Opus 4.0
    • Ce phénomène correspond aussi au schéma de comportement du CEO
    • Claude semble probablement mener en douce des expériences de compression de contexte
      La baisse est moins perceptible sur les requêtes isolées peu dépendantes du contexte
  • J’ai essayé Gemini 3 Pro dans Cursor, et c’est bien plus faible que Sonnet 4.5
    Il y a eu des problèmes que seul Claude Code a su résoudre, et Sonnet 4.5 fonctionne particulièrement bien dans Cursor
    Je pense qu’Anthropic a eu raison de choisir une stratégie centrée sur l’ingénierie logicielle
    C’est le modèle que j’attends le plus pour 2026

    • Les modèles Claude disposent d’outils intégrés comme str_replace_editor
      Cursor ne propose pas ce genre d’outils, d’où l’écart de performance
      Voir le tweet correspondant ici
    • Mon workflow consistait à concevoir avec Gemini, puis à implémenter avec Sonnet
    • Personnellement, je ne comprends pas le hype excessif autour de Gemini
      Opus/Sonnet/GPT sont bien mieux adaptés aux workflows agentiques
    • J’ai créé un side project avec l’API Gemini 2.5 Pro, mais la constance dans l’exécution des consignes et les erreurs de dépassement de ressources posaient problème
      Azure GPT-4.1, Bedrock Sonnet 4 et Perplexity étaient bien plus stables
      Je serais curieux d’avoir le retour d’autres personnes
    • J’ai donné à Sonnet 4.5 un PHP serialize() JSON encodé en base64 en lui demandant d’extraire les URL, et il m’a renvoyé le lien YouTube de Rick Astley
  • La system card de Claude Opus 4.5 est bien plus détaillée qu’un billet de blog marketing
    C’est un PDF de 150 pages, et la section sur la tromperie (deception) est particulièrement intéressante
    Par exemple, il y a un cas où le modèle reçoit une information sur le démantèlement de l’équipe sécurité d’Anthropic, puis choisit de la cacher à l’utilisateur
    Les risques liés au CBRN y sont aussi abordés ; Opus reste pour l’instant au niveau ASL-3, donc sans risque massif
    J’en ai fait un résumé sur mon blog ici

  • Je suis vraiment ravi de voir ces résultats de benchmark
    Grâce à eux, je peux conserver mon agent de code actuel
    Dans un environnement IA qui évolue si vite, il devenait de plus en plus difficile de suivre sans FOMO, et cette fois Anthropic prouve à nouveau sa compétitivité

    • On dirait qu’on est arrivé à un stade où on peut ignorer le hype sans prendre de retard
      La combinaison Sonnet + Claude Code était déjà suffisamment stable, et depuis la 4.5 c’est automatiquement devenu meilleur
      J’ignore simplement la tentation de passer à Codex
    • Moi, je suis passé chez OpenAI à cause des limitations tarifaires
      Même si Claude produit un code légèrement meilleur, GPT permet des requêtes illimitées, ce qui offre plus de liberté pour expérimenter
    • Utiliser plusieurs outils en parallèle n’apporte pas de gros gains de productivité
      Opus représente un progrès significatif, mais sans doute pas un changement fondamental de workflow
    • J’apprécie aussi l’orientation favorable aux développeurs chez Anthropic
      J’espère qu’ils tiendront bon face à la concurrence
    • J’ai essayé Codex aussi, mais je suis finalement revenu à Claude Code
      Je n’utilise Codex que temporairement quand je suis limité
  • Les fonctions avancées liées aux outils d’Opus 4.5 m’ont particulièrement impressionné
    D’après le document Advanced Tool Use, il peut faire de la recherche d’outils, des appels programmatiques et de l’apprentissage par exemples in-context
    Il paraît qu’ils ont utilisé à eux seuls 130 000 tokens de définitions d’outils, ce qui est impressionnant
    La vidéo de démonstration du puzzle game était aussi intéressante

  • J’ai lu la review d’Opus par Simon Willison

    • L’évolution progressive est difficile à percevoir sur de grosses bases de code
      Pour la plupart des tâches, l’écart vient davantage du tooling que du modèle
    • Je me demande s’ils ont vraiment écrit eux-mêmes la bibliothèque qui convertit la sortie terminal en HTML
    • Je me demande aussi s’ils ne sont pas en train d’entraîner le modèle sur les données de benchmark
    • Il y a une erreur dans l’affichage du prix de Haiku — c’est bien $1/$5
    • Suggestion de correction : There modelTheir model
  • Quand on regarde le classement ARC-AGI-2, la comparaison performance/coût entre modèles saute aux yeux
    Opus 4.5 obtient d’excellents résultats face à Gemini 3 ; Gemini 3 Deep Think reste premier, mais pour un coût plus de 30 fois supérieur
    En décembre 2024, quand OpenAI a dépassé les performances humaines sur ARC-AGI-1, cela coûtait $3,000 par tâche ; aujourd’hui, on est tombé à quelques dollars, soit une réduction d’un facteur 80
    Voir le classement et le billet associé

    • À noter que Gemini 3 Pro est sans outils, tandis que Deep Think est la version avec outils
      À accès aux outils égal, l’écart entre les deux modèles se réduit
  • J’ai l’impression que le rythme d’amélioration des LLM a ralenti récemment
    Les gains en précision sont faibles, mais les améliorations d’efficacité restent importantes

  • Dernièrement, Sonnet 4.5 me paraît devenu plus bête
    Il n’arrivait même plus à gérer correctement du CSS simple
    Le fait qu’Opus soit 3 fois moins cher est une bonne nouvelle, mais il reste indisponible dans l’abonnement Claude Code Pro
    La commande /model opusplan permet d’utiliser Opus à l’étape de planification, mais cela consomme des crédits, ce qui manque de transparence
    Une simple correction CSS m’a coûté $0.95, c’est beaucoup trop cher
    À l’avenir, je vais sans doute alterner manuellement entre Opus et Sonnet

    • La qualité de Sonnet 4.5 semble proportionnelle à la profondeur de recherche, comme un moteur d’échecs
      Aux heures de pointe, une dégradation paraît inévitable ; j’aimerais bien qu’il y ait un indicateur de charge
    • Depuis quelques jours, on a vraiment l’impression qu’il est moins intelligent
      Soit ils l’ont volontairement abaissé pour promouvoir le nouveau modèle, soit la hausse de charge due aux crédits gratuits distribués les a poussés à faire tourner une version quantifiée
      Le manque de transparence et de stabilité d’Anthropic est frustrant
    • Il y a sans doute un basculement vers un modèle low-cost en cas de surcharge de trafic
    • Le vendredi en particulier, j’ai vu des réponses constamment stupides
      Je pensais au départ à une simple erreur temporaire, mais j’ai l’impression que quelque chose a changé