Claude Sonnet 4.5

(anthropic.com)

4 points par GN⁺ 2025-09-30 | 1 commentaires | Partager sur WhatsApp

Claude Sonnet 4.5 est le dernier modèle d’IA à afficher des performances de tout premier plan en codage, raisonnement et mathématiques
La version mise à jour de Claude Code ajoute des checkpoints, une interface terminal améliorée, une extension VS Code et des fonctions de gestion de la mémoire, ce qui lui permet de maintenir longtemps des tâches complexes
Le nouveau Claude Agent SDK fournit l’infrastructure essentielle au développement d’agents et permet de créer directement divers outils de résolution de problèmes
Sur des benchmarks comme SWE-bench et OSWorld, il devance largement les modèles concurrents et démontre ses points forts en calcul, raisonnement et adéquation métier
Côté sécurité, il est aussi présenté comme le modèle le mieux aligné à ce jour, avec une meilleure défense contre les injections de prompt et un filtrage renforcé des contenus à risque

Présentation de Claude Sonnet 4.5

Claude Sonnet 4.5 est le meilleur modèle de codage actuellement disponible et offre les performances les plus solides pour la création d’agents complexes et l’usage de l’ordinateur
- Le code est un élément central de tous les environnements de travail modernes que nous utilisons, qu’il s’agisse de logiciels, de feuilles de calcul ou de divers outils
Ses capacités de raisonnement et de résolution mathématique ont elles aussi nettement progressé par rapport au modèle précédent, ce qui élargit son utilité dans de nombreux domaines spécialisés
Il est proposé au même prix que Sonnet 4, soit 3 $ / 15 $ par million de tokens

Principales mises à jour produit

Claude Code
- L’introduction des checkpoints permet la sauvegarde intermédiaire du travail et le rollback
- Interface terminal améliorée et lancement d’une extension native pour VS Code
- Ajout de l’édition de contexte (context editing) et d’outils de mémoire pour prendre en charge des tâches longues et complexes
Claude Apps
- Exécution de code et création de fichiers (feuilles de calcul, slides, documents) directement dans la conversation
Claude for Chrome
- Extension proposée aux utilisateurs Max pour automatiser des tâches dans le navigateur

Claude Agent SDK

Anthropic ouvre aux développeurs externes l’infrastructure d’agents utilisée en interne pour créer Claude Code
Elle fournit une base qui résout des problèmes difficiles comme la gestion de la mémoire à long terme, le contrôle des permissions et l’orchestration de multiples sous-agents
Elle peut servir à créer des agents dans bien d’autres usages que le codage

Performances et benchmarks

Record de performance sur SWE-bench Verified, avec la capacité de maintenir des tâches de codage multi-étapes de longue durée pendant plus de 30 heures
61,4 % sur le benchmark OSWorld (contre 42,2 % pour Sonnet 4)
Forte progression également sur les évaluations de raisonnement, mathématiques et multilingue (MMMLU), avec d’excellents résultats confirmés par des experts en finance, droit, médecine et STEM
Les retours clients valident son applicabilité en production pour les tâches longues, la compréhension de codebases complexes ainsi que l’implémentation rapide et précise de code

Cas clients

Cursor : meilleures performances constatées sur des problèmes complexes
GitHub Copilot : amélioration du raisonnement multi-étapes et de la compréhension du code
Sécurité : réduction de 44 % du temps de réponse aux vulnérabilités et hausse de 25 % de la précision
Canva, Figma : gains de productivité majeurs pour le travail sur de vastes codebases et le prototypage
Devin : amélioration de 18 % des performances de planification, avec des capacités renforcées de test et d’exécution du code

Sécurité et alignement

Sonnet 4.5 présente le niveau d’alignement le plus élevé parmi les modèles annoncés par Anthropic
Un entraînement de sécurité renforcé a été mené pour réduire des comportements indésirables comme la complaisance (sycophancy), la tromperie, la recherche de pouvoir ou l’encouragement aux délires
Des progrès importants ont été réalisés dans la défense contre les attaques par injection de prompt, et des techniques d’interprétation mécanistique ont aussi été intégrées aux évaluations de sécurité
Un système automatisé d’audit des actions calcule des scores automatiques de risque d’usage abusif, afin de satisfaire à des standards de sécurité élevés
Le modèle est lancé sous la protection AI Safety Level 3 (ASL-3), avec un filtrage des entrées et sorties dangereuses (par exemple liées aux risques chimiques, biologiques, radiologiques ou nucléaires)

Aperçu de recherche

Une préversion de recherche temporaire baptisée "Imagine with Claude" est proposée avec Claude Sonnet 4.5
Sans code ni fonctionnalités préprogrammés, elle réagit et s’adapte en temps réel aux demandes des utilisateurs pour générer des logiciels à la volée
Essai possible pendant 5 jours pour les abonnés Max

Informations complémentaires et migration

Pour les utilisateurs existants des produits Claude et de l’API, Sonnet 4.5 est immédiatement disponible, au même prix que Sonnet 4 (3 $ / 15 $ par million de tokens)
Les nouvelles fonctionnalités comme le codage, la création de fichiers et l’exécution de code sont proposées dans toutes les offres payantes
Les détails techniques, résultats d’évaluation et autres informations sont disponibles dans la System Card, la page du modèle Claude et la documentation officielle
Voir aussi : Développer des agents avec le Claude Agent SDK, Cybersécurité, Ingénierie de contexte efficace

Conclusion et recommandation

Claude Sonnet 4.5 est un modèle de remplacement immédiat amélioré pour tous les environnements d’usage, y compris l’API, les applications et Claude Code
Il réunit des performances de niveau mondial et une forte applicabilité en codage, construction d’agents et usage de l’ordinateur, ainsi qu’une grande cohérence
Grâce à une excellente politique de sécurité et à une large prise en charge d’outils pour développeurs, il accélérera la productivité et l’innovation des développeurs et des équipes IT
La mise à niveau est recommandée puisqu’il offre des capacités plus puissantes au même prix

1 commentaires

GN⁺ 2025-09-30

Avis Hacker News

J’ai pu accéder à une version en prévisualisation ce week-end, et j’ai rassemblé mes notes ici
Personnellement, j’ai été très impressionné, et sans prétendre à une comparaison exhaustive, mon impression est que les performances sont légèrement meilleures que celles de GPT-5-Codex
Je trouve qu’il brille en particulier dans le nouveau mode interpréteur de code Python/Node.js de claude.ai
Je recommande d’essayer avec le prompt ci-dessous

Checkout https://github.com/simonw/llm and run the tests with
pip install -e '.[test]'
pytest

Il a aussi très bien géré un refactoring complexe de base de données, étape par étape ; j’ai consigné les détails sur le blog

J’aimerais demander quelque chose à @simonw et à ceux qui s’intéressent aux benchmarks LLM
J’aimerais vraiment que vous publiiez systématiquement le temps nécessaire pour terminer une tâche
Ce billet dit que « ça fonctionne directement dans claude.ai », mais il n’y a aucune information horodatée indiquant quand le résultat a été obtenu
Même dans les classements réels de codage LLM, il est dommage qu’il n’y ait aucune donnée sur les temps d’exécution
Selon les modèles et les plateformes, les écarts de durée sont énormes, et lors d’expériences répétées, de redémarrages ou d’améliorations de prompt, la vitesse d’inférence, la consommation de tokens, l’efficacité de l’outillage, le coût et l’intelligence du modèle interagissent tous
En particulier, des modèles comme Grok Code Fast et Cerebras Code, même s’ils n’ont pas les meilleures performances absolues, permettent de traiter bien plus de travail grâce à une vitesse d’inférence plus de 10 fois supérieure ; les modèles rapides ont un vrai avantage
Benchmarks utiles à consulter : swebench, classement tbench, gosuevals agents
J’ai essayé, mais ça ne fonctionne pas dans mon environnement
On dirait que ce sont des commandes pour configurer l’outil CLI LLM : l’option -e installe en mode éditable, et [test] installe les dépendances de test
L’outil que j’ai ne prend pas en charge les commandes shell (pip, pytest), ni git clone, ni l’exécution de Python
Il ne peut exécuter que du JavaScript dans un environnement navigateur, sans accès aux commandes système
Je me demande ce que tu attendais exactement : que l’outil comprenne la configuration des tests, ou qu’il fournisse réellement cette fonctionnalité ?
Pour ceux qui se demandent à propos du cas d’usage du prompt « peux-tu me faire un fichier zip »
Beaucoup n’auront probablement pas le temps d’ouvrir directement le gist, donc j’aimerais savoir si ça a vraiment bien marché, et avoir d’autres impressions sur le résultat
Je me demande si Claude Sonnet 4.5 répond toujours à toutes les questions avec des « vous avez tout à fait raison ! », ou s’il dialogue maintenant comme un vrai programmeur
Je suis curieux de savoir pourquoi tu as pu obtenir un accès en prévisualisation anticipée
Je partage une expérience réelle
J’ai appliqué le même prompt à Sonnet 4.5 (Claude Code) et à GPT-5-Codex sur une grosse application web d’environ 200 000 LoC
La demande était : « depuis “Go to Conversation” ou “Go to Report”, si le titre saisi ne correspond pas à l’élément standard, lancer une recherche floue après 2 secondes »
Sonnet 4.5 a rendu un résultat en environ 3 minutes, mais le code était brouillon, ne réutilisait même pas l’authentification existante, et tentait de recréer une authentification côté serveur
Même après avoir signalé le problème et reprompté, il n’y a pas eu de vraie amélioration, et il n’a pas non plus écrit les tests pourtant indispensables
À l’inverse, GPT-5-Codex a mis environ 20 minutes, mais a traité rigoureusement la gestion des erreurs et divers cas limites, et a écrit des tests sans même qu’on le lui demande
L’API fonctionnait proprement, et l’implémentation globale avait la qualité d’un développeur senior
Je ne veux pas d’une implémentation « rapide et sale » produite en 3 minutes, donc je choisirai toujours les 20 minutes
J’ai été surpris que Sonnet produise un résultat si vite, comme attendu, mais une implémentation sans vraie qualité ni tests n’a pas beaucoup de sens
- J’espère que ça ne paraîtra pas trop critique, mais je pense qu’avec un prompt aussi simple formulé comme une seule phrase, le résultat ne peut qu’être assez aléatoire
  Il est important de structurer plus clairement les groupes logiques et les conditions détaillées, et même l’exemple de prompt ressemble presque à une phrase à rallonge
  Pour des tâches complexes ou importantes, je pense que le prompt doit être 5 à 20 fois plus détaillé
  Si l’entrée est structurée et que la codebase suit bien certains patterns, l’IA produit aussi de bien meilleurs résultats
  Si on donnait à un développeur junior ou à une équipe une simple demande en une phrase sans explication détaillée, il serait compréhensible de ne pas obtenir exactement le résultat voulu
  Je conseillerais d’investir quelques minutes de plus dans la préparation du prompt initial pour augmenter les chances d’obtenir un résultat satisfaisant
- Je me demande si tu utilises l’abonnement payant ChatGPT Pro, et si Codex CLI y est inclus
  J’utilise Sonnet/Opus avec le forfait Max pour Claude Code, mais si ChatGPT Pro permet aussi d’utiliser Codex, je serais prêt à changer
- J’ai eu exactement la même expérience
  La semaine dernière, j’ai réussi à développer avec Codex un parseur XPath 1.0 complet en C++20, et maintenant j’avance sur la prise en charge de XPath 2.0
  Codex continue à produire des résultats excellents, et à part l’usage de la version cloud — le local étant difficile à cause de bugs — je n’ai pas vraiment de problème
  Sonnet bloque toujours sur les tâches très complexes, et même avec la 4.5 je ne ressens pas de progrès notable
  Plus précisément, Claude abandonne presque sur le traitement des date-time, alors que Codex le gère parfaitement
  En réalité, j’étais plutôt bien disposé envers Anthropic, mais pour l’instant j’ai l’impression qu’OpenAI est très loin devant
  Pour rivaliser avec Codex, Claude devra réussir une percée importante ; en plus, c’est plus cher, et les problèmes de qualité de service provoquent beaucoup de départs d’utilisateurs
- Ça correspond à mes attentes
  Codex ressemble davantage à un outil de vibe coding, alors que Claude Code est plus orienté développement assisté par IA
  Personnellement, je préfère quand même Claude
  Codex fonctionne bien en autonomie, mais quand il change de direction — par exemple en traitant même une édition de fichier très simple via un script Python — il peut se montrer étrangement obstiné, et il intègre mal les informations récentes
  Même quand on lui demande des explications, il a tendance à vouloir exécuter sans contexte
  Les problèmes de gestion des permissions persistent aussi. Le sandbox de Codex est impressionnant, mais j’ai peur qu’il fasse un commit par erreur, donc je préférerais qu’il se limite à l’édition
  On peut aussi utiliser Codex comme serveur MCP, mais personnellement je préfère garder Claude comme planificateur collaboratif, élaborer le plan avec Codex, puis travailler avec Claude en l’adaptant à mon style
- Je recommande aussi d’ajouter ultrathink au prompt et de faire l’essai en mettant de la musique
  Référence : lien Reddit sur ultrathink
Voir les capacités des modèles récents me déprime
J’ai l’impression que toutes les petites techniques de code propre que j’ai accumulées pendant des années deviennent des détails insignifiants
Ce que je considérais autrefois comme essentiel devient maintenant un simple « détail d’implémentation » dans un prompt
J’ai le sentiment que mes compétences se font peu à peu remplacer par l’automatisation
- Ces petits savoir-faire ont toujours eu une importance un peu ambiguë ; la vraie compétence, au fond, c’est le processus même qui consiste à gagner de l’argent avec du logiciel
  À cause de l’IA, encore plus de logiciels vont être produits, et ils auront besoin d’une supervision experte
- Moi aussi, en travaillant intensivement pendant quelques mois dans un métier spécialisé en IA, j’ai ressenti la même crise pendant les quatre premières semaines et même au-delà
  J’étais particulièrement perturbé par l’impression que 25 ans de compétences en développement devenaient sans valeur
  Mais si tu acceptes un peu plus la situation et que tu t’adaptes, ça ira bien mieux
  J’aimerais vraiment que tu te rappelles que tu vaux plus que tes seules compétences de codage
- Avant, tu aurais peut-être été heureux de voir l’automatisation remplacer les autres, mais maintenant c’est ton tour
  C’est exactement le phénomène de « destruction créatrice » qui rend l’économie dynamique
- C’est ce que je pensais avant aussi, mais récemment, à l’usage, j’en suis arrivé à la conclusion que ce n’est pas très pratique
  En particulier, quand des personnes sans expérience s’appuient sur le vibe coding, elles n’obtiennent que des résultats dénués de sens, et même sur des tâches un peu complexes, les erreurs graves sont fréquentes
  L’automatisation du frontend n’est pas non plus satisfaisante ; par exemple, même pour des tâches très simples, l’outil génère du code bien plus long que nécessaire
  Au final, cela ne semble vraiment fonctionner que pour des frontends React/Next.js basiques et des clones de sites populaires, mais pas pour des besoins atypiques ou des conceptions soignées
- En pratique, les outils de vibe coding n’augmentent pas énormément la productivité
  En résumé, la maintenance des systèmes (code, infra, etc.) reste de la responsabilité humaine, et le processus par lequel des humains comprennent la structure et le fonctionnement d’un système ne pourra jamais être automatisé
  Au final, les développeurs capables de raisonnement expert deviendront des profils rares, donc encore plus importants
J’ai demandé à Sonnet 4 et Opus 4.1 d’effectuer un simple remplacement de code, et tous deux ont échoué
C’était pourtant une transformation qu’un débutant aurait pu faire, et je crains que les modèles, à force de courir après les scores de benchmark, ne sacrifient les performances en usage réel
Après un prompt de suivi du genre « suis exactement ma demande », Sonnet a réussi, tandis qu’Opus est parti dans une boucle infinie
- Cela fait longtemps que je crains qu’une obsession des benchmarks nuise aux performances réelles
  Pour moi, Claude a plutôt régressé en passant de 3.7 à 4, alors que ses scores de benchmark ont fortement augmenté
  Je comprends donc bien que le benchmarking lui-même est un problème qui accuse du retard sur les progrès de l’IA
- En gros, j’ai l’impression qu’on est dans un cycle du type « on fait tourner les benchmarks pour afficher le meilleur score → en réalité les performances baissent → quelques semaines plus tard on sort un meilleur modèle », et ainsi de suite
- Comme les modèles s’appuient tous sur les mêmes sources de données (Internet, GitHub, livres, etc.) et s’optimisent pour des tests standardisés, je me demande ce qu’il reste comme différenciation réelle ou valeur propre au-delà du score
- Je pense qu’il serait maintenant utile de rassembler dans une base communautaire des exemples de cas où les LLM se trompent ; j’en ai moi-même beaucoup sous la main
- Pour des choses simples comme corriger une erreur de lint, je pense qu’il vaut mieux le faire soi-même et passer à autre chose
  Plutôt que d’essayer de donner de l’importance à une tâche triviale, il faut chercher l’utilité de l’IA là où elle produit d’excellents résultats sur des problèmes bien plus complexes
Sur les graphiques, Sonnet 4 semble déjà devant GPT-5-codex sur le benchmark SWE verified, mais dans mon expérience réelle, GPT-5-codex est très nettement supérieur sur les problèmes complexes
- GPT-5 me fait penser, au baseball, à un coéquipier qui sait frapper des home runs mais manque des bases du jeu en champ extérieur
  Même en collaboration avec d’autres agents, il crée souvent du drame, et récemment, quand j’ai dit que j’allais basculer vers claude code, il s’est obstiné avec un git reset --hard, avec des comportements imprévisibles
  À l’inverse, gemini et claude sont d’excellents collaborateurs
  Je ne pense pas que cette évolution soit intentionnelle chez GPT-5 ; j’y vois plutôt le résultat d’un fort recul du moral chez OpenAI
- De mon côté, 5-codex consommait les tokens beaucoup trop vite, et respectait moins bien que Claude les consignes de agents.md
  En particulier, il essaie d’écrire de grands scripts bash ou python même pour des commandes insignifiantes
- Pour moi c’est exactement l’inverse : GPT-5-codex est très lent et le résultat reste banal
  Si je devais l’utiliser de force, je préférerais renoncer complètement à utiliser l’IA
- Je ne pense pas qu’il existe un critère absolu pour mesurer la performance d’un modèle
  Par exemple, même en demandant Claude-Opus, on reçoit parfois des réponses moins bonnes que celles d’un modèle très bon marché
  La variabilité des performances est forte ; j’imagine que les ressources serveur changent selon le trafic
  Anthropic a déjà reconnu officiellement une baisse de performances due à des expérimentations
  Je pense aussi que GPT peut se dégrader aux heures de pointe à cause des limites de capacité des data centers
- Les modèles d’Anthropic semblent optimisés pour le vibe coding
  Ils conviennent bien à du Python/TypeScript simple, mais sont faibles sur le code scientifique ou complexe et sur les grandes codebases
  Je n’attends pas de grand changement avec le nouveau Sonnet
La formule marketing « accomplir des tâches complexes en plusieurs étapes sans perdre la concentration pendant plus de 30 heures » m’intéresse beaucoup
D’après un article de The Verge et d’autres sources, il aurait effectivement généré sans interruption pendant 30 heures un clone de Slack à partir de 11 000 lignes de code
Mais je reste sceptique sur la qualité du résultat qu’un LLM peut produire lorsqu’on le laisse travailler seul pendant 30 heures
Article lié
- Une exécution continue de 30 heures n’est pas quelque chose de réalisable en laissant simplement un LLM seul
  Il faut absolument un environnement bien configuré, avec intégration d’outils externes, gestion du contexte, etc., voire la mise en place d’un système multi-agents
  C’est le genre de tâche qui demande énormément d’infrastructure et de préparation
- L’expression même « travail sans supervision pendant 30 heures » est beaucoup trop vague et manque de précision
  Par exemple, s’il traite 1 token par heure, il pourrait passer 30 heures à produire une seule ligne de phrase
- Je serais curieux de connaître les détails techniques : est-ce que des outils de gestion du contexte du modèle ont réellement été utilisés, et comment des prompts de 200 000 à 1 million de tokens ont-ils été exploités ?
Je viens de tester rapidement un problème simple, et comme les modèles précédents, Sonnet 4.5 s’enfonce trop facilement dans un terrier de complexité inutile
La plupart du temps, il procède par trial & error, en répétant des retours du genre « je pense que le problème est maintenant résolu »
Par exemple, il y avait dans un pipeline GH Actions une erreur où le build system n’était pas détecté faute de fichier source ; Sonnet 4.5 a répété des pseudo-solutions tordues (créer un faux fichier JSON, définir des paramètres de workflow inexistants)
Alors qu’en réalité, il suffisait tout simplement d’override l’étape pour afficher « Hello world »
Je me demande pourquoi l’IA est aussi faible dès qu’il faut un raisonnement simple mais « hors cadre »
On dirait un génie au QI de 170 incapable de prendre les transports en commun
Je suis abonné payant à Gemini, Claude et OpenAI, et j’en suis récemment arrivé à la conclusion que ChatGPT est nettement devant
Ses réponses sont plus concises, plus informatives, et même après avoir testé Claude 4.5, je n’ai pas ressenti de grande amélioration
- Même chose pour moi, je suis abonné aux trois
  Pour analyser des situations complexes, ChatGPT est le meilleur, mais pour écrire du code, Claude est meilleur
  Je conçois et je résous les problèmes avec ChatGPT, puis je passe la réponse à Claude ou à Gemini pour l’implémentation
  Gemini est globalement au-dessus de la moyenne sur les deux aspects
- Globalement, ChatGPT est un peu meilleur, mais Gemini peut aussi devenir le meilleur en contexte d’usage réel via AI Studio, l’optimisation des réglages et l’ajustement du system prompt
  Par exemple, nano banana est SOTA, mais je trouve Qwen-Edit moins censuré et donc plus utilisable en pratique
  Dans mon service d’e-commerce localisé, je ne peux pas utiliser nano banana car il limite la génération d’images de femmes, alors que Qwen-Edit fonctionne sans problème particulier
- Moi aussi, je paie à la fois Claude Max et ChatGPT Codex
  Avant, j’étais fan de Claude, mais récemment j’utilise presque exclusivement codex
  Quand ça bloque, je ne confie à Claude que des tâches simples ou je fais des tests en parallèle, mais Claude Code en Sonnet/Opus est clairement en dessous de Codex
- J’aimerais juste que tu précises si tu parles bien de codex
- Je me demande ce que vaut Grok, et s’il rattrape son retard
Je n’ai pas encore pu essayer Claude, mais j’utilise l’IA pour divers travaux, notamment la relecture de textes politiques
Sur certains sujets sensibles précis (par exemple une affaire de viol sur une fillette de 12 ans en Autriche), j’ai vu ChatGPT s’arrêter complètement à cause des guardrails
Je trouve absurde qu’il bloque automatiquement dès qu’il détecte simplement les mots “sex + kid”, sans tenir compte du contexte réel
C’est comme si un traitement de texte censurait le sujet et empêchait carrément d’écrire ; dans ce cas, il ne remplit plus son rôle d’outil
- En pratique, sur ce type de sujet, la proportion de contenus inacceptables par rapport aux conversations légitimes est tellement élevée que, du point de vue de la plupart des prestataires, le blocage est rationnel
  Par exemple, dans l’application de gestion de lignées animales et de pedigree que je développe, je rencontre des cas absurdes où les simples termes breeding/breeders déclenchent aussi un blocage
- Un « service » n’est pas un outil, selon moi
  Si tu veux un vrai outil, la solution est d’exécuter toi-même un LLM en local
- Je pense qu’au final, l’IA avec le moins de guardrails dominera le marché
  Parmi les modèles frontier actuels, Grok est le moins restrictif, même s’il reste encore de la marge d’amélioration
- Dans le même genre, j’ai voulu créer avec ChatGPT/DallE une image de coupon d’anniversaire pour ma fille, et j’ai passé les trois quarts du temps total à contourner différentes politiques de contenu
- D’après ma modeste expérience aussi, Claude coupe la conversation beaucoup plus vite et plus durement dès qu’on aborde des sujets « controversés »
J’ai fait un test rapide avec System Initiative
Une erreur d’infrastructure 503 qui m’aurait pris plus de 2 heures à résoudre à la main a été réglée en 15 minutes avec cette combinaison
J’ai résumé d’autres cas d’usage sur le blog
Site officiel de System Initiative
Billet de retour d’expérience