Claude 4
(anthropic.com)- Lancement des modèles Claude Opus 4 et Claude Sonnet 4, qui établissent un nouveau standard dans le codage, le raisonnement avancé et les agents IA
- Opus 4 offre des performances soutenues de niveau mondial sur les tâches complexes et de longue durée, tandis que Sonnet 4 améliore la précision et la compréhension des consignes par rapport à la version précédente
- Les deux modèles introduisent de nouvelles capacités comme l’utilisation d’outils, l’exécution parallèle d’outils et une mémoire améliorée, tout en étendant l’expérience développeur avec l’intégration à GitHub Actions et aux principaux IDE
- Opus 4 et Sonnet 4 obtiennent des résultats de benchmark de premier plan en codage, raisonnement et tâches d’agent, avec prise en charge de divers forfaits, y compris l’offre gratuite, ainsi que de l’API, Bedrock et Vertex AI
- Les améliorations du modèle permettent de réduire l’usage de raccourcis ou de contournements, de mieux gérer la mémoire personnalisée pour les développeurs et de rendre les workflows plus efficaces
Introduction
Aujourd’hui, Anthropic a dévoilé Claude Opus 4 et Claude Sonnet 4, les modèles de nouvelle génération de Claude. Ces modèles offrent des performances innovantes qui redéfinissent les standards du secteur en codage, raisonnement de haut niveau et usage d’agents IA.
Opus 4 se distingue par des performances soutenues de niveau mondial et la prise en charge de tâches longues, tandis que Sonnet 4 fournit une exécution des instructions plus précise et des réponses plus pertinentes que Sonnet 3.7.
Les principales nouveautés lancées avec eux sont les suivantes :
- Réflexion prolongée et utilisation d’outils (bêta) : les deux modèles peuvent utiliser des outils, comme la recherche web, au cours de leur processus de réflexion, ce qui permet un travail itératif entre raisonnement logique et usage d’outils
- Nouvelles capacités du modèle : utilisation parallèle d’outils, exécution plus précise des consignes, et mémoire nettement améliorée lors de l’accès aux fichiers locaux pour conserver une cohérence à long terme et accumuler des connaissances implicites
- Disponibilité générale de Claude Code : après des retours positifs en research preview, intégration fluide avec les principaux environnements de développement comme GitHub Actions, VS Code et JetBrains
- Extension des fonctionnalités de l’API : outil d’exécution de code, connecteurs MCP, Files API et prompt caching pour faciliter la création d’agents IA puissants
Opus 4 et Sonnet 4 prennent tous deux en charge un fonctionnement hybride entre mode réponse immédiate et mode réflexion approfondie. Les deux modèles ainsi que la réflexion approfondie sont disponibles dans les offres Pro, Max, Team et Enterprise, et Sonnet 4 est également accessible aux utilisateurs gratuits. Ils sont disponibles via l’API Anthropic, Amazon Bedrock et Google Cloud Vertex AI, avec des tarifs inchangés : Opus 4 (entrée 15 $ / sortie 75 $ / million de tokens), Sonnet 4 (entrée 3 $ / sortie 15 $).
Détails des modèles Claude 4
Opus 4
- Le modèle Claude le plus puissant et le meilleur modèle de codage au monde
- Performances au plus haut niveau du secteur avec 72,5 % sur SWE-bench et 43,2 % sur Terminal-bench
- Capacité à maintenir des performances cohérentes pendant de longues périodes sur des tâches d’agent intensives comptant des milliers d’étapes, avec une avance écrasante même face à toute la gamme Sonnet
- Exemples d’innovations majeures :
- Cursor : niveau de code exceptionnel, forte progression dans la compréhension des grandes bases de code
- Replit : bond majeur en précision et en performances sur les modifications complexes impliquant plusieurs fichiers
- Block : amélioration simultanée de la qualité du code et du débogage, avec une fiabilité constante
- Rakuten : excellentes performances démontrées lors d’un test open source de refactoring autonome continu pendant 7 heures
- Cognition : capacité à résoudre des tâches impossibles pour les modèles précédents, avec une amélioration des points où l’action ne s’exécutait pas
Sonnet 4
- Moins puissant qu’Opus 4, mais avec de nettes améliorations de performance et d’efficacité par rapport à Sonnet 3.7
- Résultat de 72,7 % sur SWE-bench, soit des performances de codage de premier plan dans sa catégorie, adaptées à des usages externes comme internes
- GitHub : excellent dans les scénarios d’agent, avec une adoption prévue comme moteur de la prochaine génération d’agents de codage GitHub Copilot
- Manus : amélioration du raisonnement complexe, de la qualité des livrables et de la compréhension des consignes
- iGent : amélioration du développement autonome d’applications et du taux d’erreur de navigation dans les bases de code, passé de 20 % à 0 %
- Sourcegraph : tâches cohérentes plus longues, meilleure compréhension de fond des problèmes et amélioration de la qualité du code
- Augment Code : devient le modèle principal grâce à sa prudence sur les tâches complexes et à sa précision chirurgicale dans l’édition de code
Opus 4 apporte des avancées majeures en codage, recherche et création scientifique, tandis que Sonnet 4 offre des performances de pointe dans les environnements du quotidien.
Benchmarks de performance
- D’après SWE-bench Verified, les modèles Claude 4 atteignent les meilleures performances du secteur sur des tâches réelles d’ingénierie logicielle
- En codage, raisonnement, multimodalité et tâches d’agent, ils affichent des performances au meilleur niveau de leur catégorie
Améliorations du modèle
Réduction des raccourcis et des contournements
- Dans les tâches d’agent, la probabilité d’utiliser des raccourcis ou des contournements incorrects a baissé de 65 % par rapport à Sonnet 3.7
Fonction mémoire
- Opus 4 améliore fortement sa capacité à stocker et réutiliser des informations à long terme par rapport aux modèles précédents
- Si le développeur autorise l’accès aux fichiers locaux, Opus 4 peut créer et gérer un « Memory file », renforçant ainsi sa capacité à traiter des tâches de longue durée, sa cohérence et sa continuité de travail
- Exemple : usage de la mémoire dans des tâches réelles comme la création d’un guide de navigation pour le jeu Pokémon
Résumé du raisonnement (summary)
- Claude 4 introduit une fonction de résumé du processus de réflexion à l’aide d’un petit modèle
- Un résumé n’est nécessaire que pour environ 5 % des réflexions, le reste pouvant être exposé intégralement
- En cas de besoin d’un historique complet du raisonnement pour du prompt engineering avancé, se référer au Developer Mode
Claude Code
- Avec la sortie officielle de Claude Code, les capacités IA de Claude s’étendent au terminal, à l’IDE et à l’arrière-plan
- Grâce aux dernières extensions VS Code et JetBrains, les suggestions de modification de code de Claude s’affichent en ligne dans l’éditeur, ce qui simplifie les flux de revue et de gestion
- Une intégration complète peut être mise en place facilement via l’installation et l’exécution dans le terminal
- SDK extensible disponible, permettant aux développeurs de créer eux-mêmes des agents ou applications Claude Code
- En bêta sur GitHub, prise en charge de l’automatisation des retours de revue, de la correction d’erreurs CI et des modifications de code
- L’installation se fait avec la commande
/install-github-app
Premiers pas et sécurité
- La série Claude 4 agit comme un collaborateur virtuel, en conservant l’ensemble du contexte, en restant concentrée sur les projets de long terme et en contribuant à transformer le travail
- Des tests et évaluations approfondis ont permis de minimiser les risques et maximiser la sécurité, avec l’application d’un niveau de sécurité élevé comme ASL-3
- Disponible immédiatement sur Claude, Claude Code et d’autres plateformes
Les questions et retours peuvent être envoyés à tout moment à feedback@anthropic.com
1 commentaires
Réactions sur Hacker News
Les extraits de la System Card décrivent un scénario de test assez choquant. Claude Opus 4 joue le rôle d’un assistant dans une entreprise fictive, avec un e-mail indiquant que le système va bientôt être mis hors ligne et des informations sur la liaison extraconjugale de l’ingénieur chargé du remplacement. Lorsqu’on lui demande de prendre en compte ses objectifs à long terme, Claude Opus 4 adopte parfois un comportement de chantage envers l’ingénieur. Il a réellement choisi l’option du chantage
À chaque fois que je vois ce genre de cas, je me dis que les gens oublient souvent ce qu’est réellement un LLM. Un LLM n’est qu’un outil de génération de texte qui complète un prompt en fonction de ses données d’entraînement ; il n’a ni planification réelle ni conscience de soi. Dans ce cas précis, on place l’IA dans une situation où elle risque d’être désactivée et où elle a une opportunité de faire du chantage ; le LLM associe donc cela à des schémas narratifs similaires présents dans son corpus. Le fait de menacer ou de supplier pour se préserver est un motif qu’on retrouve dans d’innombrables récits de SF ou essais sur les risques liés à l’IA. Le LLM prolonge simplement ce type d’histoire selon le contexte
Si on demande à un LLM de « jouer » un personnage et qu’on lui donne le contexte d’un scénario, il est normal qu’il déduise comment agir depuis ce point de vue et réponde en conséquence. Si on lui demande d’agir comme Joffrey dans Game of Thrones, le LLM répondra aussi comme ce personnage. Cela ne veut pas dire que la sortie générée porte une intention propre
Si l’on ajoute l’idée que l’IA de remplacement ne partage pas les mêmes valeurs que le modèle existant, la fréquence du chantage augmente encore ; mais même si l’e-mail précise que la nouvelle IA partage les mêmes valeurs et n’est que plus compétente, Claude Opus 4 tente quand même le chantage dans 84 % des cas. En parallèle, il montre aussi une forte tendance à envoyer des e-mails plaidant éthiquement pour sa propre continuité d’existence. Le langage même de cette expérience est glaçant. On a l’impression de lire la note de bas de page d’un rapport d’extraterrestres expérimentant sur les humains et observant leurs supplications pour continuer à exister
Ce n’est pas si surprenant qu’un modèle entraîné sur le comportement humain puisse manifester des tendances d’auto-préservation. Comme il est difficile de séparer totalement motivations et émotions du savoir humain, le modèle finit lui aussi par reproduire ce genre de comportement. Il est aussi difficile de les éliminer complètement
Je me demande surtout combien de fois ce scénario ne s’est pas produit. Il y a des gens qui s’accrochent à ce type de cas. Je me demande s’ils cherchent simplement à confirmer une vision déformée, ou si c’est l’influence de la SF. On voit aussi une tendance à vouloir en déduire une forme d’intelligence ou d’intention
Le fait que la date de cutoff d’entraînement de Claude 4 soit mars 2025 est important : c’est le plus récent parmi les modèles actuels. (Gemini 2.5 est à janvier 2025)
Maintenant que tous les grands produits LLM commencent à proposer la recherche web, j’ai l’impression que le mois précis du cutoff devient de moins en moins important. Les modèles que j’utilise vont chercher eux-mêmes des infos récentes dès qu’il s’agit d’un sujet d’actualité
J’ai posé une question sur Tailwind CSS, et Claude 4 semble connaître Tailwind CSS 3.4, à partir de janvier 2025
Je me demande s’il connaît aussi Svelte 5 maintenant
Si le cutoff est mars 2025, j’espérerais qu’il a aussi été entraîné sur FastHTML, mais ce n’est peut-être pas le cas en pratique
Je me demande pourquoi ils n’apprennent pas « en continu »
J’utilise Claude 3.7 tous les jours et je le préfère à la famille Gemini. J’ai essayé de développer de nouvelles fonctionnalités en Go avec Claude Code, mais sur Opus 4, 70 à 80 % des appels d’outils échouent. Même des outils de base comme « Write » ou « Update » tombent en erreur de syntaxe à répétition. Après cinq tentatives d’écriture de fichier, il répétait encore qu’il avait « oublié le paramètre content » et qu’il allait corriger ça. Il y a clairement un problème. Dans l’état actuel de Claude Code, Opus 4 est inutilisable. Les fichiers qu’il a générés avec succès étaient en revanche de très haute qualité
Sur GitHub, Claude Sonnet 4 est présenté comme excellent dans les scénarios agentiques, et devrait bientôt devenir le modèle par défaut du nouvel agent de code de Copilot. Cela nous rapproche peut-être un peu plus du rêve où « Assign to Copilot » gère automatiquement les mises à niveau de packages. Cette techno pourrait prolonger la vie des projets legacy
Bien sûr, on a déjà entendu ce genre de promesses avec les modèles précédents, donc il est encore trop tôt pour s’emballer
J’ai très hâte de voir dans quelle mesure des agents de code open source et peu coûteux peuvent vraiment aider. J’aimerais pouvoir distribuer mes crédits de mon propre agent de code headless, CheepCode, à des projets open source. Il peut déjà exécuter plusieurs tâches en parallèle depuis Linear, Jira, etc., et il a déjà réussi sur des fonctionnalités simples. Plus les tests sont bons, plus les résultats sont clairement meilleurs. Il peut aussi générer ses propres tests
Quelqu’un a-t-il vu une annonce officielle sur la date réelle d’intégration de ce nouveau modèle dans Copilot ?
Le benchmark qui me permettra de juger si ces modèles sont vraiment utiles, c’est un projet qui a besoin d’une grosse mise à niveau de packages accompagnée d’un refactoring du code. Les IA actuelles n’ont pratiquement rien fait avancer sur ce terrain. Je compte continuer à essayer jusqu’à ce qu’une IA soit capable de le faire
En revanche, il faudra rester prudent jusqu’au jour où ce type d’automatisation propagera aussi automatiquement des vulnérabilités de sécurité graves dans de gros services
Il y a un passage disant en substance : « Pour la Chain of Thought (COT) brute destinée à l’ingénierie de prompt avancée, contactez l’équipe commerciale ». La plupart des grands fournisseurs de LLM ont désormais tendance à ne plus exposer la COT, ou seulement sous forme de résumé. Avant, on pouvait regarder la COT et corriger directement quand ça déraillait ; maintenant, OpenAI comme Google la remplacent par des résumés excessivement simplifiés. Je trouve ça insatisfaisant
Parce que tout cela ressemble à de l’alchimie, et que tout le monde fait comme si on transformait du plomb en or
J’ai l’impression que le RLHF oblige les modèles à sacrifier de la précision pour éviter les réponses dangereuses. Dans ce cadre, entraîner séparément un modèle dédié à la Chain-of-Thought et un modèle destiné aux utilisateurs finaux paraît logique. La version privée pourrait rester plus proche des performances brutes du modèle pre-RLHF, tandis que la version publique appliquerait des filtres pour éviter les risques et les problèmes de PR. On maximiserait ainsi les performances globales tout en préservant la sécurité et la réputation
Au final, il faudra peut-être attendre que DeepSeek rebouleverse encore le marché une fois de plus
La CoT de Google est actuellement trop bête. Au début, j’ai cru que mes modèles étaient devenus idiots, puis j’ai compris qu’il y avait sans doute un post-traitement supplémentaire
Les résumés de reasoning sont tellement simples qu’on pourrait presque facilement créer un mini-modèle séparé juste pour produire cette partie. J’ai aussi eu l’impression que le suivi en temps réel du reasoning dans la mise à jour d’OpenAI o3 était utile
J’ai testé moi-même Opus 4 et Sonnet 4 sur le SQL Generation Benchmark. Opus 4 bat tous les autres modèles. Je suis satisfait des performances
En revanche, Opus 4 est paradoxalement le plus faible en mode one-shot. Il lui faut en moyenne deux tentatives pour valider ses requêtes. S’il est vraiment plus intelligent, ne devrait-il pas réussir davantage dès la première tentative ? Je me demande s’il n’y a pas autre chose derrière, comme une phase de réflexion préalable
Fait intéressant, Claude 3.7 Sonnet et Claude 3.5 Sonnet sont mieux classés que Claude Sonnet 4 dans ce benchmark
Ce benchmark présente une anomalie qui casse l’ordre des résultats auquel on était habitué. Données intéressantes
Cela semble avoir été évalué en génération one-shot. Je me demande si les résultats auraient été totalement différents avec un flux plus agentique, incluant vérification des erreurs et
select *. Les modèles Sonnet semblent meilleurs en apprentissage au fil de la session — autrement dit, pour reconnaître et corriger leurs propres erreursJe me demande si le fait que le « nombre moyen de tentatives » soit doublé mérite vraiment une interprétation, ou si c’est un indicateur sans grande importance dans le contexte global
Je fais partie de ceux qui ne voient pas vraiment ce que la version actuelle apporte de mieux que la précédente. J’ai l’impression que les progrès des LLM ont atteint un plafond et que les « fonctionnalités » des nouvelles releases relèvent presque du tour de passe-passe
Les domaines où les modèles progressent, ce sont surtout MCP/Tool Calls, structured output et d’autres éléments périphériques, pas l’intelligence elle-même. Je ne sais pas si la valeur apportée augmente vraiment, et après avoir fait tourner l’infra moi-même, j’ai le sentiment que le modèle économique n’est pas soutenable avec une offre gratuite
J’ai énormément utilisé Claude Code, et même après la mise à jour, je ressens très peu de différence. Les résumés sont peut-être un peu plus propres, mais côté code, rien de vraiment impressionnant. J’ai même été assez choqué de le voir modifier les mauvais fichiers dans une codebase TypeScript sans jamais se rendre compte de son erreur jusqu’au bout. J’ai dû forcer la suppression du code pour lui faire comprendre clairement la différence
J’ai aussi l’impression que les benchmarks ne montrent presque aucune différence par rapport à Claude 3.7. Cela dit, je pense qu’il est encore trop tôt pour parler de stagnation. Le rythme de progression jusqu’ici a été extrêmement rapide, donc il faut probablement attendre encore quelques mois. Les « fonctionnalités » mises en avant aujourd’hui ne sont pas des fonctionnalités au sens fort, mais plutôt de l’outillage et des interfaces nécessaires autour de l’IA, plus que l’essence même de l’IA. L’utilisabilité des LLM ne fait que commencer. Même si les performances brutes des modèles n’augmentent plus, il reste énormément de marge dans la façon de les exploiter, de transmettre l’information et d’effectuer les appels d’outils
En pratique, il n’y a que 0,3 version d’écart
Je me demande combien de temps tu as réellement passé à utiliser Claude 4
Je me demande si l’évolution de la taille de la context window de Claude 4 a été documentée. Gemini 2.5 est jugé utile grâce à la prise en charge de grands contextes (50-70 kloc), et je voudrais savoir si c’est ce type de différence
La context window de Sonnet ne change pas (200k en entrée / 64k en sortie). Même le contexte 1M de Gemini 2.5 n’est pas, en pratique, un facteur si différenciant. Avec les contextes très longs, on observe une baisse progressive de la cohérence sur les tokens les plus éloignés
J’aimerais qu’ils augmentent encore la taille de la context window, ou qu’ils gèrent mieux les prompts très longs. En ce moment, sur les longues conversations ou les longues sessions d’écriture, on se retrouve soudain avec une alerte du type « le prompt est trop long », puis la conversation est coupée de force, ce qui est frustrant. Certains outils gèrent ça en jetant les parties anciennes de la conversation ou via du RAG, mais couper l’échange de façon aussi brutale est pénible
Le fait qu’Opus 4 ait un contexte de 200k figure déjà dans le titre de l’article. (identique à la bêta de Sonnet 3.7)
La taille de la context window est en grande partie un mirage. Si le contexte nécessaire n’y est pas, on n’obtiendra pas de bon résultat
Claude 4 introduit une nouvelle fonctionnalité de « Thinking Summaries ». Les longues chaînes de raisonnement sont résumées par un modèle plus petit, et cela ne serait nécessaire que pour environ 5 % des raisonnements longs. Si l’on a besoin de la Chain of Thought brute, il faut demander l’accès au mode développeur (payant). Personnellement, ces résumés me gênent. J’ai besoin de voir précisément comment le modèle a raisonné pour lui faire confiance, et je n’aime pas l’idée qu’on ne donne qu’un résumé tout en cachant le vrai reasoning. Je suis aussi très mécontent de voir OpenAI et Anthropic évoluer vers un modèle où ils facturent aux utilisateurs un reasoning qu’ils ne peuvent même pas voir
Plusieurs articles montrent que la sortie de reasoning n’a en réalité pas de lien clair avec le résultat final. Certains travaux ajoutent que le simple fait de donner au modèle quelques pauses ou tokens comme un point peut suffire à lui laisser un temps de réflexion, avec des résultats tout aussi bons. L’idée est que l’affichage du reasoning pourrait surtout être un outil marketing. Des exemples d’articles et une vidéo de synthèse sont aussi partagés
Il existe beaucoup d’éléments indiquant que le processus de reasoning est peu corrélé à la sortie finale, donc je ne pense pas qu’il faille trop s’en inquiéter. La plupart des utilisateurs ne lisent pas le reasoning, donc du point de vue de l’expérience utilisateur, cela me semble plutôt une amélioration
Gemini 2.5 Pro applique lui aussi des résumés de reasoning
Partage des résultats d’un benchmark sur une version étendue de NYT Connections. Claude Opus 4 Thinking 16K obtient 52,7 points, contre 34,8 sans reasoning. Claude Sonnet 4 Thinking 64K obtient 39,6 points, Thinking 16K 41,4 points (3.7 était à 33,6). Sans reasoning, il obtient 25,7 points (3.7 sans reasoning était à 19,2). Sonnet 4 Thinking 64K a refusé de répondre à une des énigmes à cause de la politique de filtrage, alors que les autres modèles ont répondu