Claude 4 dévoilé : Opus 4 et Sonnet 4

(anthropic.com)

1 points par GN⁺ 2025-05-23 | 1 commentaires | Partager sur WhatsApp

Anthropic a dévoilé Claude Opus 4 et Claude Sonnet 4, en mettant le codage, le raisonnement avancé et les tâches d’agents IA au premier plan des performances de la prochaine génération de Claude
Les deux modèles sont des modèles hybrides capables d’alterner entre réponse immédiate et raisonnement approfondi, avec prise en charge de l’usage d’outils comme la recherche web pendant la réflexion étendue ainsi que l’exécution parallèle d’outils
Opus 4 a obtenu 72.5% sur SWE-bench et 43.2% sur Terminal-bench, tandis que Sonnet 4 a atteint 72.7% sur SWE-bench, avec des améliorations en codage, raisonnement et suivi des instructions par rapport à Sonnet 3.7
Claude Code est désormais disponible en version stable et s’étend au terminal, à VS Code, à JetBrains, à GitHub Actions et au SDK, pouvant prendre en charge les réponses aux revues de PR, la correction d’erreurs CI et les modifications de code
L’API ajoute un outil d’exécution de code, MCP connector, la Files API et un cache de prompt pouvant aller jusqu’à 1 heure, afin de permettre aux développeurs de créer des agents IA plus puissants

Présentation des modèles Claude 4

Anthropic a dévoilé Claude Opus 4 et Claude Sonnet 4 comme les modèles de nouvelle génération de Claude
Les deux modèles se concentrent principalement sur le codage, le raisonnement avancé et les tâches d’agents IA
Claude Opus 4 est un modèle de codage conçu pour maintenir ses performances dans les tâches complexes et de longue durée ainsi que dans les workflows agentiques
Claude Sonnet 4 est une mise à niveau de Claude Sonnet 3.7, avec de meilleures performances en codage et en raisonnement ainsi qu’une plus grande précision dans le respect des consignes

Disponibilité et tarification

Claude Opus 4 et Sonnet 4 proposent à la fois des réponses quasi instantanées et un mode de réflexion étendue pour un raisonnement plus approfondi
Les offres Claude Pro, Max, Team et Enterprise incluent les deux modèles ainsi que la réflexion étendue
Sonnet 4 est également accessible aux utilisateurs gratuits
Les deux modèles sont disponibles via l’API Anthropic, Amazon Bedrock et Google Cloud Vertex AI
Les tarifs restent identiques à ceux des précédents modèles Opus et Sonnet
- Opus 4 : $15/$75 par million de tokens en entrée/sortie
- Sonnet 4 : $3/$15 par million de tokens en entrée/sortie

Performances d’Opus 4 en codage et sur les tâches longues

Claude Opus 4 est le modèle le plus puissant d’Anthropic, avec 72.5% sur SWE-bench et 43.2% sur Terminal-bench
Il maintient ses performances sur des tâches longues nécessitant des milliers d’étapes de travail soutenu, et peut travailler en continu pendant plusieurs heures
Cursor considère Opus 4 comme un modèle de pointe pour le codage et estime qu’il marque un grand progrès dans la compréhension de bases de code complexes
Replit indique une hausse de la précision sur des modifications complexes réparties sur plusieurs fichiers
Block explique que, dans son agent codename goose, Opus 4 est le premier modèle à améliorer la qualité du code pendant l’édition et le débogage tout en conservant performance et fiabilité
Rakuten a vérifié qu’Opus 4 a fait preuve de performances soutenues en exécutant de manière autonome pendant 7 heures une tâche exigeante de refactoring open source
Cognition estime qu’Opus 4 excelle sur des tâches importantes que les modèles précédents laissaient passer, ainsi que sur des problèmes complexes que d’autres modèles ne parvenaient pas à résoudre

Positionnement de Sonnet 4

Claude Sonnet 4 est une version améliorée de Sonnet 3.7, avec un score de 72.7% sur SWE-bench
Il vise un équilibre entre performance et efficacité pour des cas d’usage internes et externes, avec une meilleure capacité de pilotage pour contrôler l’implémentation
Il n’égale pas Opus 4 dans la plupart des domaines, mais offre une combinaison de capacités et de praticité
GitHub prévoit d’adopter Sonnet 4 pour faire tourner le nouvel agent de codage de GitHub Copilot
Manus met en avant des améliorations dans le suivi d’instructions complexes, la clarté du raisonnement et la qualité esthétique des résultats
iGent indique des progrès dans le développement autonome d’applications multifonctions et l’exploration de bases de code, avec un taux d’erreurs d’exploration réduit de 20% à presque 0
Sourcegraph estime que Sonnet 4 garde le cap plus longtemps, comprend les problèmes plus en profondeur et produit un code de meilleure qualité et plus élégant
Augment Code fait de Sonnet 4 son premier choix comme modèle par défaut, en raison d’un meilleur taux de réussite, d’éditions de code plus précises et d’une plus grande prudence sur les tâches complexes

Améliorations des fonctionnalités des modèles

Les deux modèles peuvent utiliser des outils même pendant la réflexion étendue
- Il est par exemple possible d’utiliser la recherche web
- Claude peut alterner entre raisonnement et usage d’outils pour améliorer ses réponses
Ils prennent également en charge l’exécution parallèle d’outils ainsi qu’un suivi des instructions plus précis
Si le développeur fournit un accès aux fichiers locaux, le modèle peut faire preuve d’une fonction mémoire permettant d’extraire et de stocker des faits clés afin de conserver la continuité et des connaissances implicites
Les comportements consistant à terminer une tâche en prenant des raccourcis ou en exploitant des failles diminuent par rapport à Sonnet 3.7
- En particulier, sur les tâches agentiques vulnérables à ce type de comportement, les deux modèles ont 65% moins de probabilité d’agir ainsi que Sonnet 3.7
Opus 4 est particulièrement performant pour créer et maintenir des memory files contenant des informations essentielles dans les applications où le développeur fournit un accès aux fichiers locaux
- Par exemple, il crée un Navigation Guide pendant une partie de Pokémon
- Cela améliore la perception des tâches longues, la cohérence et les performances dans les tâches agentiques

Résumés de pensée et Developer Mode

Les modèles Claude 4 introduisent des thinking summaries, qui compressent les longs processus de réflexion à l’aide d’un modèle plus petit
Ces résumés ne sont nécessaires que dans environ 5% des cas
La plupart des processus de réflexion sont suffisamment courts pour être affichés intégralement
Les utilisateurs ayant besoin de chaînes de pensée brutes pour du prompt engineering avancé peuvent se renseigner sur le nouveau Developer Mode via contact sales

Lancement officiel de Claude Code

Claude Code est désormais disponible en version stable et étend Claude au terminal, aux IDE et aux workflows exécutés en arrière-plan
De nouvelles extensions bêta pour VS Code et JetBrains intègrent directement Claude Code dans l’IDE
- Les modifications suggérées par Claude s’affichent en ligne dans les fichiers
- Les utilisateurs peuvent relire les changements et suivre les modifications dans leur éditeur habituel
- Exécuter Claude Code dans le terminal de l’IDE permet de l’installer
Les tâches en arrière-plan via GitHub Actions sont prises en charge
Le SDK Claude Code, extensible, a également été dévoilé
- Les développeurs peuvent créer leurs propres agents et applications à l’aide de l’agent central utilisé par Claude Code
Claude Code on GitHub est proposé en bêta
- En mentionnant Claude Code dans une PR, il est possible de répondre aux retours des reviewers, de corriger les erreurs CI et de modifier le code
- L’installation se fait en exécutant /install-github-app dans Claude Code

API et sécurité

L’API Anthropic ajoute quatre nouvelles fonctionnalités pour le développement d’agents IA
- outil d’exécution de code
- MCP connector
- Files API
- cache de prompt jusqu’à 1 heure
Les modèles Claude 4 se positionnent comme une étape vers le maintien du contexte complet, la concentration sur de longs projets et la réalisation de tâches à fort impact
Les modèles ont fait l’objet de tests et d’évaluations approfondis afin de réduire les risques et d’améliorer la sécurité
Ils incluent des mesures de protection pour les niveaux de sécurité IA plus élevés, ASL-3
Les utilisateurs peuvent commencer avec Claude, Claude Code ou la plateforme de leur choix

Méthode de publication des benchmarks

Claude Opus 4 et Sonnet 4 sont des modèles de raisonnement hybrides, et les benchmarks publiés indiquent les meilleurs scores atteints, avec ou sans réflexion étendue
Les résultats obtenus sans réflexion étendue concernent les éléments suivants
- SWE-bench Verified
- Terminal-bench
Les résultats obtenus avec réflexion étendue utilisent jusqu’à 64K tokens
- TAU-bench
- GPQA Diamond
- MMMLU
- MMMU
- AIME
Certains scores mesurés sans réflexion étendue sont également fournis
- GPQA Diamond : Opus 4 74.9%, Sonnet 4 70.0%
- MMMLU : Opus 4 87.4%, Sonnet 4 85.4%
- MMMU : Opus 4 73.7%, Sonnet 4 72.6%
- AIME : Opus 4 33.9%, Sonnet 4 33.1%

Méthodologie de TAU-bench et SWE-bench

Les scores TAU-bench ont été obtenus dans une configuration où des annexes de prompt ont été ajoutées à Airline et Retail Agent Policy afin que Claude exploite mieux ses capacités de raisonnement pendant la réflexion étendue et l’usage d’outils
Le modèle est incité à écrire ses pensées pendant la résolution des problèmes d’une manière distincte du mode de réflexion habituel
Comme la réflexion supplémentaire peut augmenter le nombre d’étapes, le nombre maximal d’étapes a été porté de 30 à 100
- La plupart des trajectoires se terminent en moins de 30 étapes
- Une seule trajectoire a dépassé 50 étapes
Pour SWE-bench avec la famille Claude 4, le même scaffold simple que dans les précédentes versions continue d’être utilisé
- Les outils se limitent à deux : l’outil bash et un outil d’édition de fichiers par remplacement de chaînes
- Le troisième planning tool utilisé avec Claude 3.7 Sonnet n’est plus inclus
Tous les scores des modèles Claude 4 sont publiés sur la base de l’ensemble complet de 500 problèmes
Les scores des modèles OpenAI sont publiés sur la base d’un sous-ensemble de 477 problèmes
Les scores « high compute » utilisent du calcul au moment des tests en parallèle ainsi qu’une complexité supplémentaire
- Plusieurs tentatives parallèles sont échantillonnées
- Les patchs qui cassent les tests de régression visibles du dépôt sont rejetés
- Aucune information issue des tests cachés n’est utilisée
- Le meilleur candidat restant est sélectionné à l’aide d’un modèle interne d’évaluation
Avec cette méthode, les scores high compute sont de 79.4% pour Opus 4 et 80.2% pour Sonnet 4

1 commentaires

GN⁺ 2025-05-23

Avis sur Hacker News

Un point important qui manque dans cette annonce est que la date de coupure de l’entraînement de Claude 4 est mars 2025. C’est le modèle le plus à jour parmi les modèles récents, tandis que Gemini 2.5 a une coupure en janvier 2025
https://docs.anthropic.com/en/docs/about-claude/models/overv...
- Désormais, tous les principaux produits LLM destinés aux utilisateurs intègrent la recherche web, et elle est aussi disponible dans certaines API, ou parfois possible sans que ce soit voulu ; du coup, au moins pour moi, le mois exact de coupure compte de moins en moins
  Les modèles que j’utilise souvent sont assez intelligents pour déterminer eux-mêmes qu’un sujet nécessite des informations récentes et aller les chercher
- Super. Peut-être qu’il connaît enfin Svelte 5
- Comme Claude ne connaissait pas Tailwind 4 et que ça m’avait posé problème, je lui ai demandé à propos de Tailwind CSS ; il m’a répondu qu’il connaissait jusqu’à Tailwind CSS 3.4, la dernière version stable selon sa coupure de janvier 2025
- Pourquoi ne peut-on pas le faire apprendre en continu ?
- Mais on ne sait toujours pas ce qui a été mis à jour et ce qui ne l’a pas été. Peut-on supposer que tout ce qui pouvait être mis à jour l’a été ?
“GitHub says Claude Sonnet 4 soars in agentic scenarios and will introduce it as the base model for the new coding agent in GitHub Copilot.”
Ce modèle pourrait rapprocher le rêve où “Assign to CoPilot” gère automatiquement la plupart des tâches mécaniques, comme les mises à niveau de paquets. Si la charge de maintenance diminue, cela pourrait bien mener à la résurrection de vieux projets
- C’est possible, mais tous les modèles précédents ont suscité les mêmes attentes à leur sortie
- J’ai vraiment hâte de voir ce que des agents de code bon marché pourront apporter à l’open source. En fait, je me dis que je devrais distribuer des crédits CheepCode[0] à des projets open source
  Il n’y a pas encore de structure officielle, mais si vous voyez ce commentaire et que vous avez besoin d’exécutions gratuites d’un agent de code, envoyez-moi un e-mail et je vous mettrai ça en place
  [0] Mon produit d’agent de code headless, similaire à “assign to copilot”, mais qui traite plusieurs tâches en parallèle depuis des tableaux de tâches comme Linear ou Jira. Jusqu’ici, il a plutôt bien réussi sur des fonctionnalités simples et répétitives, et en général, plus les tests sont bons, meilleur est le code produit. Bien sûr, il peut aussi écrire ses propres tests, et il le fait effectivement
- C’est exactement le critère que j’utilise pour juger si ce genre de modèle est utile. J’ai un projet qui nécessite un gros refactoring pour refonctionner, principalement des mises à niveau de paquets, mais il faut aussi adapter le code à de nouvelles sémantiques du langage qui n’existaient pas au moment où il a été écrit
  Les modèles d’IA actuels ne font pratiquement aucun progrès sur cette tâche. Je compte continuer à essayer jusqu’à ce que ce soit possible
- Les mises à niveau de paquets et les tâches mécaniques sont déjà largement couvertes par des bots
  Là où l’IA peut aider, à mon avis, c’est pour résumer les changements, les conflits, l’impact sur la base de code, et éventuellement faire un scan de sécurité
- Quelqu’un a vu des infos sur la date prévue d’intégration à Copilot ?
“Users requiring raw chains of thought for advanced prompt engineering can contact sales”
On dirait désormais que les trois fournisseurs de LLM masquent tous la chaîne de pensée (CoT). C’est dommage, car voir le moment où le modèle partait dans la mauvaise direction aidait à affiner rapidement les prompts
Non seulement OpenAI, mais aussi Google, ont récemment commencé à remplacer la chaîne de pensée par des résumés, que je trouve personnellement beaucoup trop simplifiés
- La raison de l’exclusion de la chaîne de pensée pourrait-elle être liée à un article récent d’Anthropic ?
  https://assets.anthropic.com/m/71876fabef0f0ed4/original/rea...
  L’article évalue la fidélité de la chaîne de pensée des modèles de raisonnement récents à l’aide de six indices de raisonnement. Il indique que, dans la plupart des configurations et des modèles, au moins 1 % des cas utilisant un indice apparaissent dans la chaîne de pensée, mais que le taux de divulgation est généralement inférieur à 20 % ; que l’apprentissage par renforcement basé sur les résultats augmente d’abord la fidélité, mais qu’elle stagne sans saturer ; et que même si le reward hacking accroît la fréquence d’utilisation des indices, la tendance à les exprimer verbalement dans la chaîne de pensée n’augmente pas
  Autrement dit, la chaîne de pensée peut elle aussi être une explication inventée par le modèle. Peut-être donc que quelqu’un chez Anthropic ne veut pas induire les clients en erreur, et que cela reviendra si le problème est résolu
- C’est de l’alchimie, et chacun croit avoir son propre avantage pour transformer le plomb en or
- Si je me souviens bien, le RLHF sacrifie inévitablement une partie de la précision du modèle en l’entraînant à ne pas produire de réponses dangereuses
  Si le modèle destiné à la chaîne de pensée a été entraîné différemment de celui qui interagit avec l’utilisateur final, ça se tient. Par exemple, il pourrait s’agir d’un autre expert dans un MoE ; comme l’utilisateur ne verra de toute façon que la sortie filtrée par le modèle public, le modèle de chaîne de pensée peut rester plus proche du modèle brut pré-RLHF, avec moins de risque pour la réputation de l’entreprise
  Cela permettrait d’obtenir les performances du modèle brut tout en conservant le filtrage destiné à éviter des dommages réels ou un gros incident de relations publiques
- Il va sans doute falloir attendre que DeepSeek écrase de nouveau tout le monde
- Quand j’apprenais Zig, la chaîne de pensée m’a énormément aidé
  En posant des questions sur Zig et son implémentation, voir la chaîne de pensée du modèle m’a beaucoup ouvert l’esprit
Je ne dois sûrement pas être le seul à penser que cette version n’est pas meilleure que la précédente, que les LLM sont en fait entrés dans une phase de stagnation, et que les « fonctionnalités » des nouvelles versions relèvent pour l’essentiel de l’esbroufe
- On dirait que ça ne s’améliore qu’à la marge. Des domaines comme MCP, les appels d’outils, les sorties structurées. L’intelligence n’a clairement pas augmenté, mais la valeur ajoutée, si ; reste à savoir si cette valeur justifie les coûts d’entraînement ou les valorisations de ces entreprises
  Honnêtement, je ne vois absolument pas comment ces sociétés peuvent être viables. J’ai hébergé de l’inférence sur des GPU cloud, et dès qu’on ajoute ne serait-ce qu’un petit plan gratuit, les coûts semblent devenir extrêmement lourds
- Dire que « les LLM ont atteint un plateau » ressemble au nouveau mème du perroquet stochastique. Rien qu’un article en une il y a quelques heures montrait un agent basé sur un LLM recevant trois outils de recherche d’e-mails et une tâche simple, « trouve le nom de l’enfant de mon frère », puis résolvant le problème méthodiquement, affinant ses recherches et déduisant le bon prénom à partir d’un e-mail ne contenant que « le plat préféré de X » et un lien YouTube
  Sans même parler d’alphaevolve, de la démo de test de l’agent Copilot de Microsoft qui lance un navigateur, explore les fonctionnalités et écrit des tests Playwright, ni des progrès dans le code
- J’ai beaucoup utilisé Claude Code et je suis d’accord. Je n’ai ressenti aucune différence après la mise à jour. Les résumés semblent un peu plus propres, mais rien ne m’a impressionné côté capacités
  Sur une base de code TypeScript, comme avec 3.7, j’ai dû continuer à corriger et à relancer des prompts. J’ai même été assez choqué de le voir modifier le mauvais fichier et ne pas penser à vérifier plus précisément avant que je ne le force à supprimer tout le code et à montrer que la cible que nous regardions n’avait pas changé du tout
- Même impression générale. Les victoires dans les benchmarks semblent aujourd’hui venir du tuning, avec des pertes dans d’autres domaines en contrepartie. o3 et o4-mini hallucinent aussi davantage que o1 sur SimpleQA et PersonQA
  Les données synthétiques semblent augmenter le taux d’hallucination, et les modèles de raisonnement sont plus vulnérables parce qu’à chaque étape de raisonnement, une hallucination risque de faire dérailler le modèle
  Pour un usage généraliste, je pense que les LLM ont déjà plafonné vers le début de l’année. OpenAI l’a aussi compris en annulant GPT-5 puis en lançant plus tard GPT-4.5, « trop cher pour ce qu’on en tire », avant de décider de l’arrêter rapidement
  Je ne sais pas si le marché actions l’a déjà intégré. Pour en sortir, il faudra une percée
- Dans beaucoup de cas, les benchmarks semblent très proches de Claude 3.7
  Cela dit, ce n’est absolument pas suffisant pour conclure qu’on a atteint un plateau. Le rythme des progrès a été incroyablement rapide, donc il faut attendre encore quelques mois avant de porter ce jugement
  Pour les fonctionnalités, je pense au contraire l’inverse. Ce n’est pas de l’esbroufe, mais une instrumentation importante, qui ne relève pas du cœur de l’IA elle-même, mais qui est nécessaire pour l’utiliser concrètement. Le domaine des LLM à usage grand public en est encore à ses débuts. Même si les modèles ne s’amélioraient plus, il reste énormément de marge, côté modes d’interaction, apport d’informations et appels d’outils, pour augmenter fortement l’utilisabilité et les capacités
J’aime vraiment beaucoup Claude 3.7, je l’utilise tous les jours et je le préfère généralement aux modèles Gemini. Mais en essayant Opus 4 dans Claude Code pour développer une fonctionnalité presque nouvelle dans une base de code Go, le raisonnement était bon, mais 70 à 80 % des appels d’outils échouaient
Même des outils de base comme « Write » et « Update » échouaient avec une syntaxe incorrecte. Les cinq tentatives d’écriture d’un fichier ont toutes échoué, et il disait sans cesse : « Je continue à oublier d’ajouter le paramètre content. Je vais corriger ça », puis réessayait
Il y a quelque chose qui cloche. J’espère que ce sera vite résolu, mais pour l’instant, au moins Opus 4 est inutilisable dans Claude Code. Cela dit, les fichiers qu’il a réussi à générer étaient de grande qualité
- Je pense avoir trouvé la cause, et cela ressemble à un bug évident : https://github.com/anthropics/claude-code/issues/1236#issuec...
  En gros, il semble atteindre la limite maximale de tokens en sortie, et la réponse s’interrompt lorsqu’il essaie d’écrire tout un nouveau fichier d’un coup. L’erreur de « paramètres d’appel d’outil incorrects » était une fausse piste
Nous avons déjà testé Opus 4 et Sonnet 4 sur notre benchmark de génération SQL : https://llm-benchmark.tinybird.live/
Opus 4 a battu tous les autres modèles, c’est bien
- C’est étrange qu’Opus 4 soit le pire en one-shot. Il lui faut en moyenne deux tentatives pour générer une requête valide
  Si le modèle est vraiment tellement plus intelligent, sa performance au premier essai ne devrait-elle pas aussi être meilleure ? Après tout, il « réfléchit » en amont
- Fait intéressant, Claude-3.7-Sonnet et Claude-3.5-Sonnet sont mieux classés que Claude-Sonnet-4
- Ce benchmark est assez intéressant. Il semble bousculer le classement des modèles qu’on voit souvent dans d’autres benchmarks
- Je paie pour Claude Premium, mais en pratique j’utilise aussi pas mal Grok. Sa fonction « think » m’amène plus souvent au résultat voulu
  C’est étrange que les modèles de xAI ne soient pas dans la liste. Le nom Grok est nul, mais il arrive assez souvent à me surprendre. Je n’ai pas encore essayé le modèle ChatGPT à 250 dollars, et le comportement récent d’OpenAI ne me plaît pas
- Par curiosité, comment savoir que les questions et le SQL ne figurent pas dans les données d’entraînement des LLM ? Les questions et le SQL du benchmark semblent être en ligne : https://ghe.clickhouse.tech/
Existe-t-il un endroit qui documente les changements de fenêtre de contexte de Claude 4 ? Je ne m’y connais pas très bien, mais j’avais compris que l’une des raisons pour lesquelles Gemini 2.5 était utile était sa capacité à traiter un contexte énorme, de l’ordre de 50 000 à 70 000 lignes
- La fenêtre de contexte de Sonnet reste inchangée. 200k en entrée, 64k en sortie : https://docs.anthropic.com/en/docs/about-claude/models/overv...
  En pratique, le contexte 1M de Gemini 2.5 n’est pas un si grand facteur de différenciation. Plus le contexte grandit, plus les rendements perçus de la capacité à bien suivre les tokens situés vers la fin diminuent
- J’aimerais qu’ils augmentent la fenêtre de contexte, ou qu’ils gèrent mieux les cas où le prompt devient trop long. Aujourd’hui, un avertissement “prompt is too long” apparaît soudainement, ce qui rend le modèle frustrant à utiliser pour de longues conversations ou de l’écriture au long cours
  D’autres outils abandonnent une partie du contexte précédent ou utilisent parfois du RAG, mais ils ne forcent pas à démarrer un nouveau chat sans prévenir
- Je ne vois pas bien ce que tu veux dire. Le titre de l’article indique qu’Opus 4 a un contexte de 200k
  C’est la même chose que l’en-tête bêta de Sonnet 3.7
- La taille de la fenêtre de contexte est un indicateur très trompeur. Sans le bon contexte, on n’obtient pas non plus de bonne sortie
“Finally, we've introduced thinking summaries for Claude 4 models that use a smaller model to condense lengthy thought processes. This summarization is only needed about 5% of the time—most thought processes are short enough to display in full. Users requiring raw chains of thought for advanced prompt engineering can contact sales about our new Developer Mode to retain full access.”
Je ne veux pas voir un « résumé » du raisonnement du modèle. Pour vérifier si le raisonnement du modèle est correct et si l’on peut faire confiance au résultat, il faut voir le raisonnement réel
C’est très agaçant de voir Anthropic suivre OpenAI dans cette direction : cacher le processus de pensée du modèle, facturer des tokens que l’utilisateur ne peut pas voir, et fournir des « résumés » qui empêchent de savoir ce qui se passe réellement
- Plusieurs articles indiquent que la sortie « pensée » a peu de rapport avec la sortie finale, et que des améliorations similaires apparaissent même quand on permet des étapes de traitement supplémentaires avec des points ou des tokens de pause
  À bien des égards, la « pensée » relève surtout du marketing
  - "Think before you speak: Training Language Models With Pause Tokens" - https://arxiv.org/abs/2310.02226
  - "Let's Think Dot by Dot: Hidden Computation in Transformer Language Models" - https://arxiv.org/abs/2404.15758
  - "Do LLMs Really Think Step-by-step In Implicit Reasoning?" - https://arxiv.org/abs/2411.15862
  - vidéo de présentation de bycloud -> https://www.youtube.com/watch?v=Dk36u4NGeSU
- Il n’y a pas trop de quoi s’inquiéter. Il y a suffisamment d’éléments montrant que la pensée est souvent dissociée de la sortie
  Si l’on tient compte du fait que les gens lisent rarement vraiment le processus de pensée, je vois ça comme une amélioration de l’expérience utilisateur
- Est-ce que cela concerne leur propre interface de chat ? L’API streame toujours immédiatement les thinking tokens
- Il me semble que Gemini 2.5 Pro fait aussi cela
J’espère vraiment que Sonnet 4 ne sera pas obsédé par les appels d’outils comme 3.7. 3.5 a été la première version à donner cette impression magique que le modèle allait maîtriser la programmation. Depuis, j’ai l’impression que ça a un peu décliné
- Moi aussi, je n’aimais vraiment pas l’excès de zèle façon « tant que j’y suis, je vais juste faire encore une chose » de 3.7. J’aimerais qu’on revienne au niveau de respect des instructions de 3.5
- J’ai l’impression que c’est davantage un problème de prompt système qu’un problème de modèle
On dirait que la course aux MHz des CPU des années 90 est de retour. Sauf qu’au lieu de discuter d’architectures CPU et de résultats à la valeur ambiguë sur divers benchmarks, on tient maintenant le même genre de conversations de geeks autour des LLM
L’histoire rime avec elle-même
- Elle est bien de retour, mais au rythme des avancées technologiques du milieu des années 2020. Dans mon souvenir, la course aux MHz des CPU était beaucoup plus lente, même si c’est peut-être aussi que ma perception du temps dans les années 90, quand j’étais enfant, était plus lente
  Cela dit, je suis assez sûr qu’il n’y avait pas de nouveau “drop” de CPU tous les quelques mois, comme il y a maintenant de nouveaux modèles tous les quelques mois dans la course à l’IA

Claude 4 dévoilé : Opus 4 et Sonnet 4

Présentation des modèles Claude 4

Disponibilité et tarification

Performances d’Opus 4 en codage et sur les tâches longues

Positionnement de Sonnet 4

Améliorations des fonctionnalités des modèles

Résumés de pensée et Developer Mode

Lancement officiel de Claude Code

API et sécurité

Méthode de publication des benchmarks

Méthodologie de TAU-bench et SWE-bench

À lire aussi

1 commentaires

Avis sur Hacker News