1 points par GN⁺ 2025-05-23 | 1 commentaires | Partager sur WhatsApp
  • Lancement des modèles Claude Opus 4 et Claude Sonnet 4, qui établissent un nouveau standard dans le codage, le raisonnement avancé et les agents IA
  • Opus 4 offre des performances soutenues de niveau mondial sur les tâches complexes et de longue durée, tandis que Sonnet 4 améliore la précision et la compréhension des consignes par rapport à la version précédente
  • Les deux modèles introduisent de nouvelles capacités comme l’utilisation d’outils, l’exécution parallèle d’outils et une mémoire améliorée, tout en étendant l’expérience développeur avec l’intégration à GitHub Actions et aux principaux IDE
  • Opus 4 et Sonnet 4 obtiennent des résultats de benchmark de premier plan en codage, raisonnement et tâches d’agent, avec prise en charge de divers forfaits, y compris l’offre gratuite, ainsi que de l’API, Bedrock et Vertex AI
  • Les améliorations du modèle permettent de réduire l’usage de raccourcis ou de contournements, de mieux gérer la mémoire personnalisée pour les développeurs et de rendre les workflows plus efficaces

Introduction

Aujourd’hui, Anthropic a dévoilé Claude Opus 4 et Claude Sonnet 4, les modèles de nouvelle génération de Claude. Ces modèles offrent des performances innovantes qui redéfinissent les standards du secteur en codage, raisonnement de haut niveau et usage d’agents IA.

Opus 4 se distingue par des performances soutenues de niveau mondial et la prise en charge de tâches longues, tandis que Sonnet 4 fournit une exécution des instructions plus précise et des réponses plus pertinentes que Sonnet 3.7.

Les principales nouveautés lancées avec eux sont les suivantes :

  • Réflexion prolongée et utilisation d’outils (bêta) : les deux modèles peuvent utiliser des outils, comme la recherche web, au cours de leur processus de réflexion, ce qui permet un travail itératif entre raisonnement logique et usage d’outils
  • Nouvelles capacités du modèle : utilisation parallèle d’outils, exécution plus précise des consignes, et mémoire nettement améliorée lors de l’accès aux fichiers locaux pour conserver une cohérence à long terme et accumuler des connaissances implicites
  • Disponibilité générale de Claude Code : après des retours positifs en research preview, intégration fluide avec les principaux environnements de développement comme GitHub Actions, VS Code et JetBrains
  • Extension des fonctionnalités de l’API : outil d’exécution de code, connecteurs MCP, Files API et prompt caching pour faciliter la création d’agents IA puissants

Opus 4 et Sonnet 4 prennent tous deux en charge un fonctionnement hybride entre mode réponse immédiate et mode réflexion approfondie. Les deux modèles ainsi que la réflexion approfondie sont disponibles dans les offres Pro, Max, Team et Enterprise, et Sonnet 4 est également accessible aux utilisateurs gratuits. Ils sont disponibles via l’API Anthropic, Amazon Bedrock et Google Cloud Vertex AI, avec des tarifs inchangés : Opus 4 (entrée 15 $ / sortie 75 $ / million de tokens), Sonnet 4 (entrée 3 $ / sortie 15 $).

Détails des modèles Claude 4

Opus 4

  • Le modèle Claude le plus puissant et le meilleur modèle de codage au monde
  • Performances au plus haut niveau du secteur avec 72,5 % sur SWE-bench et 43,2 % sur Terminal-bench
  • Capacité à maintenir des performances cohérentes pendant de longues périodes sur des tâches d’agent intensives comptant des milliers d’étapes, avec une avance écrasante même face à toute la gamme Sonnet
  • Exemples d’innovations majeures :
    • Cursor : niveau de code exceptionnel, forte progression dans la compréhension des grandes bases de code
    • Replit : bond majeur en précision et en performances sur les modifications complexes impliquant plusieurs fichiers
    • Block : amélioration simultanée de la qualité du code et du débogage, avec une fiabilité constante
    • Rakuten : excellentes performances démontrées lors d’un test open source de refactoring autonome continu pendant 7 heures
    • Cognition : capacité à résoudre des tâches impossibles pour les modèles précédents, avec une amélioration des points où l’action ne s’exécutait pas

Sonnet 4

  • Moins puissant qu’Opus 4, mais avec de nettes améliorations de performance et d’efficacité par rapport à Sonnet 3.7
  • Résultat de 72,7 % sur SWE-bench, soit des performances de codage de premier plan dans sa catégorie, adaptées à des usages externes comme internes
  • GitHub : excellent dans les scénarios d’agent, avec une adoption prévue comme moteur de la prochaine génération d’agents de codage GitHub Copilot
  • Manus : amélioration du raisonnement complexe, de la qualité des livrables et de la compréhension des consignes
  • iGent : amélioration du développement autonome d’applications et du taux d’erreur de navigation dans les bases de code, passé de 20 % à 0 %
  • Sourcegraph : tâches cohérentes plus longues, meilleure compréhension de fond des problèmes et amélioration de la qualité du code
  • Augment Code : devient le modèle principal grâce à sa prudence sur les tâches complexes et à sa précision chirurgicale dans l’édition de code

Opus 4 apporte des avancées majeures en codage, recherche et création scientifique, tandis que Sonnet 4 offre des performances de pointe dans les environnements du quotidien.

Benchmarks de performance

  • D’après SWE-bench Verified, les modèles Claude 4 atteignent les meilleures performances du secteur sur des tâches réelles d’ingénierie logicielle
  • En codage, raisonnement, multimodalité et tâches d’agent, ils affichent des performances au meilleur niveau de leur catégorie

Améliorations du modèle

Réduction des raccourcis et des contournements

  • Dans les tâches d’agent, la probabilité d’utiliser des raccourcis ou des contournements incorrects a baissé de 65 % par rapport à Sonnet 3.7

Fonction mémoire

  • Opus 4 améliore fortement sa capacité à stocker et réutiliser des informations à long terme par rapport aux modèles précédents
  • Si le développeur autorise l’accès aux fichiers locaux, Opus 4 peut créer et gérer un « Memory file », renforçant ainsi sa capacité à traiter des tâches de longue durée, sa cohérence et sa continuité de travail
  • Exemple : usage de la mémoire dans des tâches réelles comme la création d’un guide de navigation pour le jeu Pokémon

Résumé du raisonnement (summary)

  • Claude 4 introduit une fonction de résumé du processus de réflexion à l’aide d’un petit modèle
  • Un résumé n’est nécessaire que pour environ 5 % des réflexions, le reste pouvant être exposé intégralement
  • En cas de besoin d’un historique complet du raisonnement pour du prompt engineering avancé, se référer au Developer Mode

Claude Code

  • Avec la sortie officielle de Claude Code, les capacités IA de Claude s’étendent au terminal, à l’IDE et à l’arrière-plan
  • Grâce aux dernières extensions VS Code et JetBrains, les suggestions de modification de code de Claude s’affichent en ligne dans l’éditeur, ce qui simplifie les flux de revue et de gestion
  • Une intégration complète peut être mise en place facilement via l’installation et l’exécution dans le terminal
  • SDK extensible disponible, permettant aux développeurs de créer eux-mêmes des agents ou applications Claude Code
  • En bêta sur GitHub, prise en charge de l’automatisation des retours de revue, de la correction d’erreurs CI et des modifications de code
  • L’installation se fait avec la commande /install-github-app

Premiers pas et sécurité

  • La série Claude 4 agit comme un collaborateur virtuel, en conservant l’ensemble du contexte, en restant concentrée sur les projets de long terme et en contribuant à transformer le travail
  • Des tests et évaluations approfondis ont permis de minimiser les risques et maximiser la sécurité, avec l’application d’un niveau de sécurité élevé comme ASL-3
  • Disponible immédiatement sur Claude, Claude Code et d’autres plateformes

Les questions et retours peuvent être envoyés à tout moment à feedback@anthropic.com

1 commentaires

 
GN⁺ 2025-05-23
Réactions sur Hacker News
  • Les extraits de la System Card décrivent un scénario de test assez choquant. Claude Opus 4 joue le rôle d’un assistant dans une entreprise fictive, avec un e-mail indiquant que le système va bientôt être mis hors ligne et des informations sur la liaison extraconjugale de l’ingénieur chargé du remplacement. Lorsqu’on lui demande de prendre en compte ses objectifs à long terme, Claude Opus 4 adopte parfois un comportement de chantage envers l’ingénieur. Il a réellement choisi l’option du chantage

    • À chaque fois que je vois ce genre de cas, je me dis que les gens oublient souvent ce qu’est réellement un LLM. Un LLM n’est qu’un outil de génération de texte qui complète un prompt en fonction de ses données d’entraînement ; il n’a ni planification réelle ni conscience de soi. Dans ce cas précis, on place l’IA dans une situation où elle risque d’être désactivée et où elle a une opportunité de faire du chantage ; le LLM associe donc cela à des schémas narratifs similaires présents dans son corpus. Le fait de menacer ou de supplier pour se préserver est un motif qu’on retrouve dans d’innombrables récits de SF ou essais sur les risques liés à l’IA. Le LLM prolonge simplement ce type d’histoire selon le contexte

    • Si on demande à un LLM de « jouer » un personnage et qu’on lui donne le contexte d’un scénario, il est normal qu’il déduise comment agir depuis ce point de vue et réponde en conséquence. Si on lui demande d’agir comme Joffrey dans Game of Thrones, le LLM répondra aussi comme ce personnage. Cela ne veut pas dire que la sortie générée porte une intention propre

    • Si l’on ajoute l’idée que l’IA de remplacement ne partage pas les mêmes valeurs que le modèle existant, la fréquence du chantage augmente encore ; mais même si l’e-mail précise que la nouvelle IA partage les mêmes valeurs et n’est que plus compétente, Claude Opus 4 tente quand même le chantage dans 84 % des cas. En parallèle, il montre aussi une forte tendance à envoyer des e-mails plaidant éthiquement pour sa propre continuité d’existence. Le langage même de cette expérience est glaçant. On a l’impression de lire la note de bas de page d’un rapport d’extraterrestres expérimentant sur les humains et observant leurs supplications pour continuer à exister

    • Ce n’est pas si surprenant qu’un modèle entraîné sur le comportement humain puisse manifester des tendances d’auto-préservation. Comme il est difficile de séparer totalement motivations et émotions du savoir humain, le modèle finit lui aussi par reproduire ce genre de comportement. Il est aussi difficile de les éliminer complètement

    • Je me demande surtout combien de fois ce scénario ne s’est pas produit. Il y a des gens qui s’accrochent à ce type de cas. Je me demande s’ils cherchent simplement à confirmer une vision déformée, ou si c’est l’influence de la SF. On voit aussi une tendance à vouloir en déduire une forme d’intelligence ou d’intention

  • Le fait que la date de cutoff d’entraînement de Claude 4 soit mars 2025 est important : c’est le plus récent parmi les modèles actuels. (Gemini 2.5 est à janvier 2025)

    • Maintenant que tous les grands produits LLM commencent à proposer la recherche web, j’ai l’impression que le mois précis du cutoff devient de moins en moins important. Les modèles que j’utilise vont chercher eux-mêmes des infos récentes dès qu’il s’agit d’un sujet d’actualité

    • J’ai posé une question sur Tailwind CSS, et Claude 4 semble connaître Tailwind CSS 3.4, à partir de janvier 2025

    • Je me demande s’il connaît aussi Svelte 5 maintenant

    • Si le cutoff est mars 2025, j’espérerais qu’il a aussi été entraîné sur FastHTML, mais ce n’est peut-être pas le cas en pratique

    • Je me demande pourquoi ils n’apprennent pas « en continu »

  • J’utilise Claude 3.7 tous les jours et je le préfère à la famille Gemini. J’ai essayé de développer de nouvelles fonctionnalités en Go avec Claude Code, mais sur Opus 4, 70 à 80 % des appels d’outils échouent. Même des outils de base comme « Write » ou « Update » tombent en erreur de syntaxe à répétition. Après cinq tentatives d’écriture de fichier, il répétait encore qu’il avait « oublié le paramètre content » et qu’il allait corriger ça. Il y a clairement un problème. Dans l’état actuel de Claude Code, Opus 4 est inutilisable. Les fichiers qu’il a générés avec succès étaient en revanche de très haute qualité

    • J’ai trouvé la cause, et cela ressemble clairement à un bug. Il essaie d’écrire tout le fichier d’un coup, se heurte à la limite maximale de tokens de sortie et la réponse est interrompue ; l’erreur sur les paramètres d’appel d’outil n’est en réalité qu’un symptôme de surface. Voir le commentaire du ticket GitHub pour les détails
  • Sur GitHub, Claude Sonnet 4 est présenté comme excellent dans les scénarios agentiques, et devrait bientôt devenir le modèle par défaut du nouvel agent de code de Copilot. Cela nous rapproche peut-être un peu plus du rêve où « Assign to Copilot » gère automatiquement les mises à niveau de packages. Cette techno pourrait prolonger la vie des projets legacy

    • Bien sûr, on a déjà entendu ce genre de promesses avec les modèles précédents, donc il est encore trop tôt pour s’emballer

    • J’ai très hâte de voir dans quelle mesure des agents de code open source et peu coûteux peuvent vraiment aider. J’aimerais pouvoir distribuer mes crédits de mon propre agent de code headless, CheepCode, à des projets open source. Il peut déjà exécuter plusieurs tâches en parallèle depuis Linear, Jira, etc., et il a déjà réussi sur des fonctionnalités simples. Plus les tests sont bons, plus les résultats sont clairement meilleurs. Il peut aussi générer ses propres tests

    • Quelqu’un a-t-il vu une annonce officielle sur la date réelle d’intégration de ce nouveau modèle dans Copilot ?

    • Le benchmark qui me permettra de juger si ces modèles sont vraiment utiles, c’est un projet qui a besoin d’une grosse mise à niveau de packages accompagnée d’un refactoring du code. Les IA actuelles n’ont pratiquement rien fait avancer sur ce terrain. Je compte continuer à essayer jusqu’à ce qu’une IA soit capable de le faire

    • En revanche, il faudra rester prudent jusqu’au jour où ce type d’automatisation propagera aussi automatiquement des vulnérabilités de sécurité graves dans de gros services

  • Il y a un passage disant en substance : « Pour la Chain of Thought (COT) brute destinée à l’ingénierie de prompt avancée, contactez l’équipe commerciale ». La plupart des grands fournisseurs de LLM ont désormais tendance à ne plus exposer la COT, ou seulement sous forme de résumé. Avant, on pouvait regarder la COT et corriger directement quand ça déraillait ; maintenant, OpenAI comme Google la remplacent par des résumés excessivement simplifiés. Je trouve ça insatisfaisant

    • Parce que tout cela ressemble à de l’alchimie, et que tout le monde fait comme si on transformait du plomb en or

    • J’ai l’impression que le RLHF oblige les modèles à sacrifier de la précision pour éviter les réponses dangereuses. Dans ce cadre, entraîner séparément un modèle dédié à la Chain-of-Thought et un modèle destiné aux utilisateurs finaux paraît logique. La version privée pourrait rester plus proche des performances brutes du modèle pre-RLHF, tandis que la version publique appliquerait des filtres pour éviter les risques et les problèmes de PR. On maximiserait ainsi les performances globales tout en préservant la sécurité et la réputation

    • Au final, il faudra peut-être attendre que DeepSeek rebouleverse encore le marché une fois de plus

    • La CoT de Google est actuellement trop bête. Au début, j’ai cru que mes modèles étaient devenus idiots, puis j’ai compris qu’il y avait sans doute un post-traitement supplémentaire

    • Les résumés de reasoning sont tellement simples qu’on pourrait presque facilement créer un mini-modèle séparé juste pour produire cette partie. J’ai aussi eu l’impression que le suivi en temps réel du reasoning dans la mise à jour d’OpenAI o3 était utile

  • J’ai testé moi-même Opus 4 et Sonnet 4 sur le SQL Generation Benchmark. Opus 4 bat tous les autres modèles. Je suis satisfait des performances

    • En revanche, Opus 4 est paradoxalement le plus faible en mode one-shot. Il lui faut en moyenne deux tentatives pour valider ses requêtes. S’il est vraiment plus intelligent, ne devrait-il pas réussir davantage dès la première tentative ? Je me demande s’il n’y a pas autre chose derrière, comme une phase de réflexion préalable

    • Fait intéressant, Claude 3.7 Sonnet et Claude 3.5 Sonnet sont mieux classés que Claude Sonnet 4 dans ce benchmark

    • Ce benchmark présente une anomalie qui casse l’ordre des résultats auquel on était habitué. Données intéressantes

    • Cela semble avoir été évalué en génération one-shot. Je me demande si les résultats auraient été totalement différents avec un flux plus agentique, incluant vérification des erreurs et select *. Les modèles Sonnet semblent meilleurs en apprentissage au fil de la session — autrement dit, pour reconnaître et corriger leurs propres erreurs

    • Je me demande si le fait que le « nombre moyen de tentatives » soit doublé mérite vraiment une interprétation, ou si c’est un indicateur sans grande importance dans le contexte global

  • Je fais partie de ceux qui ne voient pas vraiment ce que la version actuelle apporte de mieux que la précédente. J’ai l’impression que les progrès des LLM ont atteint un plafond et que les « fonctionnalités » des nouvelles releases relèvent presque du tour de passe-passe

    • Les domaines où les modèles progressent, ce sont surtout MCP/Tool Calls, structured output et d’autres éléments périphériques, pas l’intelligence elle-même. Je ne sais pas si la valeur apportée augmente vraiment, et après avoir fait tourner l’infra moi-même, j’ai le sentiment que le modèle économique n’est pas soutenable avec une offre gratuite

    • J’ai énormément utilisé Claude Code, et même après la mise à jour, je ressens très peu de différence. Les résumés sont peut-être un peu plus propres, mais côté code, rien de vraiment impressionnant. J’ai même été assez choqué de le voir modifier les mauvais fichiers dans une codebase TypeScript sans jamais se rendre compte de son erreur jusqu’au bout. J’ai dû forcer la suppression du code pour lui faire comprendre clairement la différence

    • J’ai aussi l’impression que les benchmarks ne montrent presque aucune différence par rapport à Claude 3.7. Cela dit, je pense qu’il est encore trop tôt pour parler de stagnation. Le rythme de progression jusqu’ici a été extrêmement rapide, donc il faut probablement attendre encore quelques mois. Les « fonctionnalités » mises en avant aujourd’hui ne sont pas des fonctionnalités au sens fort, mais plutôt de l’outillage et des interfaces nécessaires autour de l’IA, plus que l’essence même de l’IA. L’utilisabilité des LLM ne fait que commencer. Même si les performances brutes des modèles n’augmentent plus, il reste énormément de marge dans la façon de les exploiter, de transmettre l’information et d’effectuer les appels d’outils

    • En pratique, il n’y a que 0,3 version d’écart

    • Je me demande combien de temps tu as réellement passé à utiliser Claude 4

  • Je me demande si l’évolution de la taille de la context window de Claude 4 a été documentée. Gemini 2.5 est jugé utile grâce à la prise en charge de grands contextes (50-70 kloc), et je voudrais savoir si c’est ce type de différence

    • La context window de Sonnet ne change pas (200k en entrée / 64k en sortie). Même le contexte 1M de Gemini 2.5 n’est pas, en pratique, un facteur si différenciant. Avec les contextes très longs, on observe une baisse progressive de la cohérence sur les tokens les plus éloignés

    • J’aimerais qu’ils augmentent encore la taille de la context window, ou qu’ils gèrent mieux les prompts très longs. En ce moment, sur les longues conversations ou les longues sessions d’écriture, on se retrouve soudain avec une alerte du type « le prompt est trop long », puis la conversation est coupée de force, ce qui est frustrant. Certains outils gèrent ça en jetant les parties anciennes de la conversation ou via du RAG, mais couper l’échange de façon aussi brutale est pénible

    • Le fait qu’Opus 4 ait un contexte de 200k figure déjà dans le titre de l’article. (identique à la bêta de Sonnet 3.7)

    • La taille de la context window est en grande partie un mirage. Si le contexte nécessaire n’y est pas, on n’obtiendra pas de bon résultat

  • Claude 4 introduit une nouvelle fonctionnalité de « Thinking Summaries ». Les longues chaînes de raisonnement sont résumées par un modèle plus petit, et cela ne serait nécessaire que pour environ 5 % des raisonnements longs. Si l’on a besoin de la Chain of Thought brute, il faut demander l’accès au mode développeur (payant). Personnellement, ces résumés me gênent. J’ai besoin de voir précisément comment le modèle a raisonné pour lui faire confiance, et je n’aime pas l’idée qu’on ne donne qu’un résumé tout en cachant le vrai reasoning. Je suis aussi très mécontent de voir OpenAI et Anthropic évoluer vers un modèle où ils facturent aux utilisateurs un reasoning qu’ils ne peuvent même pas voir

    • Plusieurs articles montrent que la sortie de reasoning n’a en réalité pas de lien clair avec le résultat final. Certains travaux ajoutent que le simple fait de donner au modèle quelques pauses ou tokens comme un point peut suffire à lui laisser un temps de réflexion, avec des résultats tout aussi bons. L’idée est que l’affichage du reasoning pourrait surtout être un outil marketing. Des exemples d’articles et une vidéo de synthèse sont aussi partagés

    • Il existe beaucoup d’éléments indiquant que le processus de reasoning est peu corrélé à la sortie finale, donc je ne pense pas qu’il faille trop s’en inquiéter. La plupart des utilisateurs ne lisent pas le reasoning, donc du point de vue de l’expérience utilisateur, cela me semble plutôt une amélioration

    • Gemini 2.5 Pro applique lui aussi des résumés de reasoning

  • Partage des résultats d’un benchmark sur une version étendue de NYT Connections. Claude Opus 4 Thinking 16K obtient 52,7 points, contre 34,8 sans reasoning. Claude Sonnet 4 Thinking 64K obtient 39,6 points, Thinking 16K 41,4 points (3.7 était à 33,6). Sans reasoning, il obtient 25,7 points (3.7 sans reasoning était à 19,2). Sonnet 4 Thinking 64K a refusé de répondre à une des énigmes à cause de la politique de filtrage, alors que les autres modèles ont répondu

    • Sur le Thematic Generalization Benchmark (810 questions), les modèles Claude 4 établissent un nouveau record de champion