7 points par GN⁺ 2025-08-06 | 1 commentaires | Partager sur WhatsApp
  • Claude Opus 4.1 est une version améliorée qui renforce le codage en production, les tâches agentic et les capacités de raisonnement
  • Il affiche la meilleure performance de code à 74,5 % sur SWE-bench Verified, avec d’excellents résultats en débogage précis de bases de code à grande échelle, refactorisation multi-fichiers, etc.
  • Les utilisateurs réels comme Rakuten, GitHub, Windsurf soulignent une amélioration claire de la précision de correction du code, de l’efficacité du débogage quotidien et du benchmark des développeurs juniors
  • Les performances sont plus affinées en environnement réel pour la refactorisation multi-fichiers et la correction détaillée de code
  • Les utilisateurs d’Opus 4 peuvent utiliser Opus 4.1 sans coût supplémentaire via API, Claude Code, Amazon Bedrock, Google Vertex AI dès maintenant

Principales caractéristiques de Claude Opus 4.1

  • En comparaison avec Claude Opus 4, les performances sont renforcées sur les tâches agentic, la production de code réelle et les tâches de raisonnement complexes
  • Une amélioration encore plus importante est prévue dans les prochaines semaines

Principales améliorations

  • SWE-bench Verified a atteint une performance de code de 74,5%
    • Les capacités de recherche approfondie et d’analyse de données ont fortement progressé, notamment pour le suivi du détail fin et la recherche agentic
    • Des résultats élevés sont également obtenus sur un benchmark de code réel de correction de bugs dans de grands dépôts open source
  • Refactorisation multi-fichiers, débogage précis dans des bases de code à grande échelle, etc., optimisés pour le travail des développeurs professionnels
    • Sur GitHub, Opus 4.1 améliore les performances de la plupart des fonctions par rapport à Opus 4, avec des gains particulièrement marqués en refactorisation de code multi-fichiers
    • Rakuten Group apprécie la capacité d’Opus 4.1 à ne corriger que les parties strictement nécessaires dans une base de code massive, en préservant le style sans modifications inutiles ni introduction de bugs
    • Windsurf indique qu’en benchmark de leurs développeurs juniors, Opus 4.1 améliore le score d’un écart-type par rapport à Opus 4, et que c’est un saut de performance comparable au passage de Sonnet 3.7 à Sonnet 4

Comparaison des performances par catégorie

  • Agentic coding (SWE-bench Verified)
    • Claude Opus 4.1: 74.5%
    • Opus 4 précédent: 72.5%, Claude Sonnet 4: 72.7%
    • OpenAI o3: 69.1%
    • Gemini 2.5 Pro: 67.2%
    • Meilleure précision dans des corrections de code open source réelles
  • Agentic terminal coding (Terminal-Bench)
    • Claude Opus 4.1: 43.3% (meilleur)
    • Opus 4: 39.2%
    • Sonnet 4: 35.5%
    • OpenAI o3: 30.2%
    • Gemini 2.5 Pro: 25.3%
  • Graduate-level reasoning (GPQA Diamond)
    • Claude Opus 4.1: 80.9%
    • Opus 4: 79.6%
    • Sonnet 4: 75.4%
    • OpenAI o3: 83.3% (meilleur)
    • Gemini 2.5 Pro: 86.4% (meilleur)
  • Agentic tool use (TAU-bench)
    • Scénario Retail: Claude Opus 4.1 82.4% (meilleur), Opus 4 81.4%, Sonnet 4 80.5%, OpenAI o3 70.4%
    • Scénario Airline: Claude Opus 4.1 56.0%, Opus 4 59.6%, Sonnet 4 60.0%, OpenAI o3 52.0%
    • Gemini 2.5 Pro n’a pas publié de score dans cette catégorie
  • Multilingual Q&A (MMMLU)
    • Claude Opus 4.1: 89.5% (meilleur)
    • Opus 4: 88.8%
    • Sonnet 4: 86.5%
    • OpenAI o3: 88.8%
    • Gemini 2.5 Pro: non publié
  • Visual reasoning (MMMU)
    • Claude Opus 4.1: 77.1%
    • Opus 4: 76.5%
    • Sonnet 4: 74.4%
    • OpenAI o3: 82.9% (meilleur)
    • Gemini 2.5 Pro: 82% (meilleur)
  • High school math competition (AIME 2025)
    • Claude Opus 4.1: 78.0%
    • Opus 4: 75.5%
    • Sonnet 4: 70.5%
    • OpenAI o3: 88.9% (meilleur)
    • Gemini 2.5 Pro: 88% (meilleur)
  • Résumé du tableau de benchmarks

    • Claude Opus 4.1 affiche une progression constante par rapport à sa version précédente et obtient les meilleurs scores sur les benchmarks opérationnels d’automatisation de code, de refactorisation multi-fichiers, de QA multilingue et d’usage d’outils
    • Dans les domaines mathématiques, de raisonnement visuel et de raisonnement avancé (GPQA), OpenAI o3 et Gemini 2.5 Pro restent en avance, mais sur la productivité de code en conditions réelles et la QA multilingue, Claude Opus 4.1 demeure le plus performant
    • Le scénario Airline (Agentic tool use) recule légèrement, et le raisonnement visuel et mathématique reste légèrement derrière certains modèles

Utilisation et déploiement en conditions réelles

  • Les utilisateurs d’Opus 4 sont encouragés à passer directement à claude-opus-4-1-20250805 via l’API
  • API, Claude Code, Amazon Bedrock, Google Vertex AI et d’autres canaux permettent son déploiement et sa mise en pratique
  • La politique tarifaire est identique à celle d’Opus 4, et une mise à niveau immédiate est recommandée pour les utilisateurs existants
  • Les ressources telles que la fiche système, la description du modèle, la tarification, la documentation officielle, ainsi que les benchmarks détaillés et les méthodes d’évaluation sont publiés

Perspectives

  • Opus 4.1 est une mise à jour progressive reflétant les derniers progrès en codage et en raisonnement, avec l’annonce d’un saut plus important dans les prochaines semaines
  • Une amélioration continue des performances et une extension des fonctionnalités sont prévues, en prenant en compte les retours des utilisateurs

Références

  • Les données de comparaison, les résultats de benchmarks avec des modèles concurrents récents comme OpenAI o3, Gemini 2.5 Pro, et la mention de l’usage du raisonnement étendu par modèle sont indiqués de manière transparente

1 commentaires

 
GN⁺ 2025-08-06
Avis de Hacker News
  • Trois grands labs ont annoncé des nouveautés à quelques heures d’intervalle, comme un scénario d’animé complètement fou.

    • C’est exactement la raison d’être des équipes de PR : être bien mis en avant sur la page d’accueil de HN ou sur les sites d’info est crucial, et même si on ne peut pas être n°1, je pense qu’il faut absolument détourner l’attention des concurrents.
    • Vu les rumeurs sur GPT-5, je pense qu’on n’en est qu’au début d’août.
    • C’est fou de vivre à l’époque actuelle.
    • On dirait qu’on attend une annonce d’un concurrent puis on sort en même temps pour laisser le marché décider de la meilleure option.
    • Je suis convaincu que c’est clairement une coïncidence.
  • Opus 4(.1) est vraiment coûteux lien, Sonnet coûte aussi autour de 5 $/h via OpenRouter + Codename Goose lien, et c’est fou que Sonnet 3.5 lien soit au même prix ; Gemini Flash lien est le plus raisonnable, mais je finis souvent sans décision claire, en tournant en rond. OpenAI n’est pas mauvais, mais n’atteint pas la performance de Claude. En revanche, sur Claude, appuyer sur CTRL-C en plein milieu renvoie une erreur 400 via l’API, ce qui est pénible. Je pense que la rentabilité est importante, et le meilleur rapport qualité/prix était OpenAI ChatGPT 4.1 mini lien, sans dépense de tokens inutile et avec une API qui fonctionne bien en permanence ; parfois il faut éclaircir un peu, mais ça s’en sort.

    • Les grands modèles pour interroger le modèle, les petits pour les questions de contexte ; je pense qu’Opus peut être abordable s’il est utilisé en fonction de son créneau.
    • Je pense qu’en passant par l’abonnement Claude Code, on peut l’utiliser à un tarif bien plus raisonnable ; avec mon plan Max, en deux semaines, je n’ai atteint la limite d’usage qu’à 2 reprises alors que je l’utilisais toute la journée.
    • Chaque fois que je compare les prix, l’API Claude est toujours la moins chère. Avec un bon cache de contexte, le coût d’entrée baisse d’environ 90 %, ce qui est énorme.
    • Je veux aussi citer des alternatives comme GLM 4.5, Kimi K2, Qwen Coder 3, Gemini Pro 2.5.
  • Opus est présenté comme supérieur à presque tous les points pour le codage, mais je trouve Sonnet beaucoup mieux en pratique. Je me demande s’il existe quelqu’un qui est passé intégralement de Sonnet à Opus, ou s’il n’utilise Opus que pour certaines tâches.

    • Opus peut être techniquement meilleur, mais je ne ressens pas un vrai écart en pratique. Faire qu’un LLM résolve une implémentation complexe en une seule fois est quasi impossible : il faut expliquer trop de choses, et au final je dois souvent retrouver la bonne réponse enfouie dans le code pour m’en rendre compte. Même quand Opus donne une réponse qui semble brillante, il faut comprendre pourquoi ce résultat sort, et pourquoi il est pertinent dans mon contexte. Au final, mon travail se fait surtout par petites unités répétées, donc Sonnet suffit.
    • Quand Sonnet devient bizarre (un ou deux jours par semaine), basculer sur Opus semble résoudre vite le problème. C’est évidemment une expérience non scientifique, et en fait changer de modèle, quel qu’il soit, peut aussi améliorer les choses.
    • Le fait de dire « Sonnet est meilleur » circule sans preuve scientifique ; le fait qu’un modèle plus grand soit meilleur va de soi, donc peu de monde le dit. En revanche, « un petit modèle peut être meilleur » sonne comme un conseil, ce qui fait que cette opinion paraît plus visible. J’ai regardé ça hier, les avis différaient selon les gens ; l’intérêt est que dans le plan Max, même en retombant provisoirement d’Opus à Sonnet, pas besoin de trop craindre une chute de qualité.
    • Opus semble meilleur pour les problèmes complexes, à plusieurs étapes, ou pour les tâches longues où il faut suivre le contexte ; donc je ne l’utilise que sur les cas difficiles, et Sonnet pour le reste. Ça suffit généralement et on se heurte moins aux limites de tokens.
    • Dans mon cas, avec le plan Max, Opus a une qualité de résultat un peu meilleure que Sonnet, mais seulement quand Opus est disponible. Et c’est drôle : même en Max, la limite d’usage arrive vite. Hier, dès mon arrivée au bureau, je l’ai atteinte en quelques minutes.
  • Opus 4.1 me paraît aussi peu utile qu’Opus 4, et donne plutôt l’impression de consommer les tokens plus vite. J’aimerais bien qu’on puisse voir la consommation. Au moins Sonnet 4 reste encore utilisable, mais les sorties deviennent de plus en plus vaporeuses ; j’ai passé mon matin à gâcher du temps sur Claude Code, et je me dis que ça aurait été mieux de le faire directement moi-même.

    • Moi aussi, je ressens une baisse progressive de la performance de Sonnet, avec des réponses plus longues, plus verbeuses, une tendance à tout mettre en liste, et jusqu’à une habitude de trop acquiescer qui finit par fatiguer des discours des concurrents.
    • Je pense que c’est lié à la taille de mon projet : suivre Claude Code sur un projet passé de 2 000 lignes à plus de 100 000 lignes devient difficile.
    • Le nouvel Opus 4.1 a voulu construire directement toute une web app dès la première discussion ; contrairement au robot anciennement bloqué, il comprend le contexte plus vite et pose les bonnes questions sur le système, au point de terminer la doc de mise à jour. Avant, il fallait répéter la même explication à chaque chat, ce qui agaçait ; maintenant, ce n’est plus le cas. En échange, les tokens partent clairement plus vite, donc tenir une conversation de plusieurs heures comme avant devient moins possible. Enfin, s’il traite la dernière tâche avant d’avoir tout consommé, c’est déjà satisfaisant.
    • La remarque « j’ai gaspillé mon matin sur Claude Code » fait penser à Welcome to the machine
  • Le stream de Claude Plays Pokemon a repris avec le nouveau modèle ; il était resté enfermé depuis des semaines dans la cachette de Team Rocket.

  • L’article dit que « des améliorations majeures des modèles sont attendues dans quelques semaines ». Sonnet 4 était le plus adapté à notre produit, mais j’ai envie d’essayer Haiku 4 (ou 4.1) parce que c’est bon marché. Je trouve étonnant qu’Anthropic n’ait pas du tout évoqué Haiku 4 cette fois.

  • Aujourd’hui a été la pire journée possible avec Claude, franchement ça a planté. Je ne sais pas si c’est à cause du déploiement, mais des propos grossiers sont apparus dans la doc et des bugs n’ont pas été corrigés même après plusieurs heures d’aller-retour.

  • C’est la partie de l’article qui m’a le plus intéressé, celle qui dit que les modèles vont s’améliorer sensiblement d’ici quelques semaines.

    • Je pense que c’est une façon de dire “ne partez pas directement vers GPT-5”.
  • Cette mise à jour est, même pour eux, à presque aucun niveau d’amélioration ; ce n’est pas mauvais, mais je pense que personne ne percevra la différence.

    • C’est probablement surtout une question de vibe, mais je pense que c’est un élément important ; ce n’est pas dans les benchmarks officiels, mais Opus 4.1 montre environ 1 écart-type de gains sur le benchmark développeur junior vs Opus 4, ce qui équivaut, disent-ils, à un saut comparable à celui de Sonnet 3.7 vers Sonnet 4.
    • Je n’ai pas encore vraiment testé, mais je ne vois pas de différence nette en qualité de sortie. Par contre, je ressens un meilleur respect des docs et instructions fournies ; je n’ai pas encore pu le quantifier objectivement, mais Opus 4.1 semble mieux suivre ces éléments, même sans les demander explicitement, tout comme pour trouver des informations “Needles-in-the-Haystack”.
    • C’est pour ça que je pense qu’ils l’ont nommé 4.1, et certainement pas 4.5.
    • J’ai l’impression qu’ils ont laissé la place pour sortir encore 10 modèles ; si les benchmarks étaient à 100 %, un nouveau modèle ne serait pas nécessaire, donc ça sent un peu le marketing qui ajuste les chiffres. Comme ils résolvent en fait les mêmes problèmes sur le même dataset d’entraînement, ils restent faibles sur les questions totalement nouvelles.
    • Sur l’image des notes, c’était intéressant de ne voir en surbrillance que Opus 4.1. Opus 4.1 n’est premier que sur environ la moitié des benchmarks, et pas partout, voire parfois en-dessous d’Opus 4.0, tandis que les scores des concurrents ne sont pas affichés.
  • Tant que le prix d’Opus et de Sonnet reste pareil, je pense que l’usage d’Opus ne dépassera jamais celui de Sonnet. Selon le classement OpenRouter, Sonnet 3.7 et 4 traitent ensemble 17 fois plus de tokens qu’Opus 4.