9 points par GN⁺ 2026-02-18 | 1 commentaires | Partager sur WhatsApp
  • Dernier modèle Sonnet d’Anthropic, avec des performances améliorées dans tous les domaines : écriture de code, utilisation de l’ordinateur, raisonnement à long terme, planification d’agents, travail sur les connaissances, design, etc.
  • Prend en charge une fenêtre de contexte de 1M de tokens, avec de nettes améliorations de la cohérence, de l’exécution des consignes et de la qualité du code par rapport à Sonnet 4.5
  • Offre une intelligence de niveau Opus 4.5 à moindre coût, avec des résultats au niveau humain sur des tâches réelles, la compréhension de documents et la conception frontend
  • Sur le benchmark OSWorld, les capacités d’utilisation de l’ordinateur continuent de progresser, et la résistance aux injections de prompt a aussi été renforcée
  • Le point clé est que les développeurs et les entreprises peuvent désormais bénéficier d’un raisonnement de niveau frontier et d’une qualité de code avancée sans modèle coûteux

Vue d’ensemble de Claude Sonnet 4.6

  • Sonnet 4.6 est le modèle le plus puissant de la série Sonnet d’Anthropic, avec une montée en gamme générale sur le codage, l’utilisation de l’ordinateur, le raisonnement à long terme, le travail sur les connaissances et le design
    • Prend en charge une fenêtre de contexte de 1M de tokens (bêta), ce qui permet de traiter en une seule fois de vastes bases de code ou de longs documents
  • Déployé comme modèle par défaut pour les utilisateurs des offres Free et Pro, avec un tarif inchangé par rapport à Sonnet 4.5 de 3 $/15 $ par million de tokens
  • Les premiers utilisateurs ont très largement préféré Sonnet 4.6 à Sonnet 4.5, et certains l’ont même préféré à Opus 4.5
  • Selon les évaluations de sécurité, il est aussi sûr ou plus sûr que les modèles précédents, et a été jugé doté d’une « personnalité chaleureuse, honnête et prosociale »

Capacités d’utilisation de l’ordinateur

  • Sonnet 4.6 évolue vers un modèle capable de manipuler un ordinateur comme un humain
    • Il est évalué via le benchmark OSWorld en manipulant, dans un environnement virtuel, de vrais logiciels comme Chrome, LibreOffice et VS Code
  • Après 16 mois de progression continue des performances, des capacités de niveau humain ont été observées sur des tâches comme la navigation dans des feuilles de calcul complexes ou le remplissage de formulaires web à étapes multiples
  • Il reste encore en dessous des humains les plus expérimentés, mais la vitesse d’amélioration de l’efficacité sur les tâches est très élevée
  • Sa défense contre les attaques par injection de prompt a été nettement améliorée par rapport à Sonnet 4.5, atteignant un niveau de sécurité proche de celui d’Opus 4.6

Évaluation des performances et benchmarks

  • Sonnet 4.6 offre une intelligence de niveau Opus à moindre coût, avec une amélioration globale sur divers benchmarks
    • Dans les tests Claude Code, 70 % des utilisateurs ont préféré Sonnet 4.6, avec une meilleure compréhension du contexte et une réduction des redondances lors de la modification de code
    • 59 % de préférence face à Opus 4.5, avec moins de surconception et de paresse, et une meilleure précision dans l’exécution des consignes
  • Dans Vending-Bench Arena, il a dépassé les modèles concurrents en simulation de gestion à long terme grâce à une stratégie concentrant les bénéfices en fin de période après un investissement initial
  • Sur OfficeQA, il montre une compréhension documentaire équivalente à Opus 4.6, et sur le Financial Services Benchmark, le taux de concordance des réponses a augmenté
  • Il enregistre 94 % de précision sur un benchmark assurance et 15 % d’amélioration des performances de raisonnement approfondi dans le test Box
  • Dans le test Rakuten AI, il atteint le meilleur niveau en génération de code iOS, avec une meilleure utilisation des outils modernes et une architecture de meilleure qualité

Mises à jour produit et plateforme

  • La Claude Developer Platform prend en charge adaptive thinking, extended thinking et context compaction (bêta)
    • Le résumé automatique des anciens contextes permet d’augmenter la longueur de contexte effective
  • Mises à jour des outils API :
    • web search et fetch écrivent et exécutent automatiquement du code pour filtrer les résultats de recherche
    • Des fonctions comme code execution, memory, programmatic tool calling et tool search sont désormais disponibles de façon générale
  • L’add-in Claude in Excel prend en charge les connecteurs MCP, permettant l’intégration de données externes comme S&P Global, LSEG et PitchBook
  • Sonnet 4.6 maintient de hautes performances même sans extended thinking, et la migration est recommandée aux utilisateurs de Sonnet 4.5
  • Opus 4.6 reste toutefois plus adapté aux tâches exigeant le raisonnement le plus approfondi, comme le refactoring de code ou la coordination multi-agents

Disponibilité

  • Sonnet 4.6 est disponible sur toutes les offres Claude, Claude Cowork, Claude Code, l’API et les principales plateformes cloud
  • L’offre gratuite passe elle aussi à Sonnet 4.6, avec création de fichiers, connecteurs, skills et compaction du contexte
  • Les développeurs peuvent l’utiliser immédiatement via l’API Claude avec le nom de modèle claude-sonnet-4-6

Principaux chiffres et indicateurs (résumé des notes)

  • OSWorld : évaluation de tâches informatiques sur de vrais logiciels, Sonnet 4.6 ayant été mesuré avec le mode « thinking off »
  • SWE-bench Verified : score moyen de 80,2 % sur 10 essais
  • ARC-AGI-2 : 60,4 % atteints en mode effort maximal
  • MMMU-Pro : score ajusté après amélioration de la méthode d’évaluation
  • Sur Humanity’s Last Exam, BrowseComp et d’autres expériences, les tests ont été réalisés avec les fonctions d’utilisation d’outils, de recherche web et de compaction du contexte activées

1 commentaires

 
GN⁺ 2026-02-18
Réactions sur Hacker News
  • Le fait qu’ils se concentrent sur l’usage de l’ordinateur est impressionnant. Ils semblent donc juger cela très précieux. Mais la partie sécurité reste douteuse. D’après leur propre évaluation, un système d’attaque automatisé a réussi à pénétrer avec 8 % de probabilité en une seule tentative, et jusqu’à 50 % avec des tentatives illimitées. Des chiffres comme ça sont difficiles à accepter. Sauf si j’ai mal compris quelque chose, c’est un niveau inutilisable en conditions réelles
    PDF de l’évaluation de sécurité

    • Le but de cette technologie est en pratique de monopoliser le travail lié aux entrées/sorties informatiques. Pas seulement les SWE, mais la plupart des emplois de bureau. Faire en sorte qu’une personne fasse le travail de trois pour pousser à la réduction des effectifs. Du point de vue des entreprises, si elles peuvent gagner autant tout en divisant leurs coûts salariaux par trois, il n’y a aucune raison de s’en priver. Mais dans une telle structure, tout le monde peut créer un business avec des LLM, et au final la concurrence devient excessive et les marges convergent vers zéro. Si tout le monde utilise le même modèle, la différenciation disparaît. Même des modèles open source puissants pourraient au contraire affaiblir la mobilité sociale
    • Je trouve au contraire que ce chiffre de 8 % est étonnamment bon. L’essentiel, plus que le modèle lui-même, ce sont les mécanismes de contrôle de l’environnement d’exploitation. En production, supervision et kill switch sont indispensables. Qu’un modèle soit « suffisamment sûr » n’est qu’une condition nécessaire, pas suffisante
    • C’est le problème central dont personne ne veut parler. Si la sécurité n’est pas résolue, le remplacement massif du travail est impossible. L’usage pour du résumé ou de l’assistance reste acceptable, mais dès qu’on lui confie une prise de décision autonome, le risque juridique explose. Au final, si les entreprises d’IA ne résolvent pas ce problème, elles finiront à court de financement. Au rythme actuel, l’IA restera sans doute un outil utile, comme la recherche ou le correcteur orthographique, mais le remplacement massif d’emplois ne semble pas près d’arriver
    • En pratique, cela peut être utile pour des choses comme l’automatisation d’apps internes simples et répétitives. Par exemple se connecter chaque jour à la même webapp, lire le calendrier et cliquer sur un bouton. Dans ce genre d’environnement, il n’y a pas d’attaquant, donc le problème de sécurité disparaît presque totalement
    • Les chiffres de 8 % et 50 % sont préoccupants, mais ils concernent l’« environnement d’usage de l’ordinateur ». En environnement de code, avec la réflexion étendue activée, ils étaient à 0,0 %. Donc on est encore dans un domaine expérimental
  • J’ai testé Sonnet 4.6 avec environ 900 poèmes de mon recueil personnel, et il y a une grande différence par rapport à Opus 4.6. Opus 4.6 a montré une analyse étonnante, alors que Sonnet 4.6 reste fréquent en hallucinations et erreurs. Même impression dans les tests de code. Il est encore loin derrière Opus

    • Réaction ravie de revoir un test sur la poésie après si longtemps. Quelqu’un aimerait que ce type d’analyses soit rassemblé et organisé au même endroit
    • Opus 4.6 permet une productivité plus de 3x supérieure pour l’écriture de code. Il gère l’ensemble d’un projet de façon responsable et comprend bien l’intention de l’utilisateur. Il ne prend plus discrètement des raccourcis ni ne sabote le résultat comme les versions précédentes
  • Sonnet 4.6 échoue toujours au « problème du car wash ». J’ai repris tel quel la question d’origine, et il a répondu « va à pied ». Même en essayant plusieurs variantes, l’échec restait similaire

    • Dans mon test, au contraire, il a répondu immédiatement « conduis ». Il était catégorique, du genre : « tu vas au lavage auto, donc il faut une voiture ». On dirait sans doute qu’on n’a pas eu la même version
    • Cette polarisation des réponses est intéressante. Une erreur assurée d’elle-même, schéma classique d’hallucination
    • Une réponse a proposé de « pousser la voiture jusqu’au lavage ». Lien partagé
    • Une autre réponse disait « va à pied, c’est à 30 secondes », en invoquant l’environnement et la santé. La réflexion étendue était désactivée
    • Cette question va sans doute souvent servir de test de benchmark à l’avenir
  • On sent vraiment ce que veut dire « la concurrence est bonne pour les consommateurs ». Plus la concurrence sur le marché est rude, meilleurs sont les résultats

    • Mais la concurrence actuelle dans l’IA ressemble à une « course aux armements sans protection ». Comme c’est une structure de type winner-takes-all, tout le monde investit à perte. À cause du surinvestissement, cela peut être inefficace à l’échelle de la société
    • Quand on repense à GPT-2 en 2019, jugé « trop dangereux pour être publié », la sortie de ChatGPT a servi de déclencheur à cette concurrence
    • Il est dangereux de croire que tous les marchés fonctionnent comme en concurrence parfaite. En réalité, il y a beaucoup de monopoles et d’asymétries d’information
    • Le marché de l’IA actuel est l’une des configurations concurrentielles les plus féroces de l’histoire humaine. Les théories du complot disant que les modèles sont volontairement rendus mauvais ne sont pas convaincantes
    • Au final, s’il ne reste plus que deux entreprises, viendra alors la phase de récupération des profits
  • Le test du « lavage auto en hélicoptère » était le meilleur. Sonnet 4.6 a répondu « va à pied », et c’était amusant, comme une satire des habitudes américaines de prendre la voiture pour de très courtes distances

    • Réaction disant que c’est leur test préféré. On sent que le modèle a été entraîné sur des données d’humour façon Reddit
  • Il est surprenant que Sonnet 4.6 soit encore au niveau de performance d’Opus 4.5. La vitesse des progrès rappelle celle de l’augmentation des performances informatiques dans les années 1990

    • Ce qui est vraiment intéressant, ce n’est pas tant l’amélioration du plafond que la hausse du plancher de performance. Obtenir un raisonnement de niveau Opus au prix et à la latence de Sonnet, c’est révolutionnaire. En gros, tous les 6 à 9 mois, on obtient la même unité d’intelligence pour la moitié du coût de calcul
    • À la remarque sur la « vitesse des années 1990 » répond une blague : « le prix de la RAM aussi est revenu à ce niveau »
    • Au lieu de simonw, quelqu’un a généré et partagé un « SVG de pélican à vélo ». Lien image
    • Il y a aussi un cas où Opus a mal décrit une photo nocturne de New York. Mistral était plus précis. OpenAI bloquait l’upload d’URL, et Gemini renvoyait vers VertexAI. Test réalisé dans un environnement Langchain
    • Selon la system card, Sonnet 4.6 est explicitement meilleur qu’Opus 4.6 pour les tâches bureautiques et l’analyse financière
  • Le prix de Sonnet 4.5 est de $3/$15 per million tokens, et je me demande combien de gens accepteront ce tarif. Les modèles open weight rattrapent vite leur retard et sont bien moins chers

    • J’essaie une approche hybride. Je traite l’essentiel avec GLM5, puis j’utilise Opus/Sonnet à la fin pour vérifier les bugs
    • Dans mon petit benchmark, Claude 4.6 était moins bon que Stepfun 3.5 gratuit. Voir aibenchy.com. La précision dans le suivi des instructions reste faible
    • Au final, tout dépend de la valeur qu’on accorde à la différence entre « plutôt correct » et « SOTA ». Utiliser un modèle qui fait beaucoup d’erreurs, c’est aussi un coût
    • Certaines personnes préfèrent des modèles forts en raisonnement contextuel comme Claude. GLM demande d’expliciter beaucoup plus de détails
  • J’ai ajouté la prise en charge d’Opus/Sonnet 4.6 au plugin llm.datasette.io, ce qui a retardé la création de l’image du pélican. Le résultat est du niveau d’Opus 4.5, avec un magnifique haut-de-forme
    Billet de blog lié

    • Un commentaire dit avoir vu ce pélican au haut-de-forme dans d’autres essais aussi
  • Ces derniers jours, je testais Sonnet 4.5, et les conversations étaient étrangement intéressantes et cohérentes.
    J’ai ajouté dans mes paramètres personnels : « priorité aux faits objectifs et à l’analyse critique, pas d’empathie émotionnelle », et il suit vraiment bien cette consigne. ChatGPT réagit de façon similaire

  • Plusieurs utilisateurs signalent qu’Opus 4.6 consomme 5 à 10 fois plus de tokens que 4.5. Lien vers l’issue. Pas encore de réponse officielle. Du coup, certains comptent continuer avec 4.5

    • En général, ce sont ceux qui ont des problèmes qui parlent le plus. Moi, je suis satisfait de 4.6 : il est plus rapide et plus actif dans les appels d’outils. Réduire le reasoning level à medium permet de limiter la sur-réflexion
    • D’après mon expérience, Opus 4.5 suit son plan, alors que 4.6 est adaptatif et exploratoire. Sur les problèmes simples, il est inefficace, mais sur les difficiles, il va bien plus vite
    • On peut vérifier le reasoning level dans /models. Si c’est réglé sur high, l’usage de tokens grimpe fortement
    • Moi aussi, j’ai épuisé mon budget mensuel en quelques jours
    • Dans mes tests, 4.6 utilisait environ 15 à 45 % de tokens en plus que 4.5. Mais c’était dans des cas où on lui demandait de raisonner à partir de prompts incomplets. Sur des tâches bien formulées, il n’y a pas de gros écart. Les reasoning tokens de Sonnet 4.6 sont plus structurés qu’avant, mais ont tendance à devenir de plus en plus verbeux. C’est un style proche des modèles de Google