20 points par GN⁺ 2026-02-06 | 9 commentaires | Partager sur WhatsApp
  • Dernier modèle d’IA d’Anthropic, doté de capacités de codage améliorées et d’une meilleure endurance sur les tâches de longue durée, avec prise en charge bêta d’une fenêtre de contexte de 1M de tokens
  • Il enregistre des scores de tout premier plan sur les principaux benchmarks, avec une avance d’environ 144 points Elo sur GPT-5.2
  • Les performances sont renforcées pour des tâches concrètes comme la revue de code et le débogage, le traitement de grandes bases de code, ainsi que l’analyse financière et la rédaction de documents
  • Des fonctions de contrôle pour les développeurs ont été ajoutées, comme Adaptive thinking, context compaction et le réglage de l’effort, afin de faciliter l’exploitation d’agents exécutés sur la durée
  • Les évaluations de sûreté montrent également de faibles taux d’erreurs, d’abus et de refus excessifs, ce qui positionne le modèle comme une combinaison réussie de hautes performances et de sécurité

Principales améliorations de Claude Opus 4.6

  • Opus 4.6 améliore par rapport à la version précédente les capacités de planification, la persistance des agents et le contrôle qualité du code
    • Il fonctionne de manière plus stable sur de grandes bases de code et renforce ses capacités de détection et de correction de ses propres erreurs
    • La fenêtre de contexte de 1M de tokens (bêta) permet de traiter des tâches longues et complexes
  • Son utilité pour le travail quotidien s’élargit aussi, avec la réalisation de tâches variées comme l’analyse financière, la recherche, la rédaction de documents, les feuilles de calcul et la création de présentations
  • Dans l’environnement Cowork, il peut effectuer du multitâche de façon autonome et prendre en charge des workflows complexes à la place de l’utilisateur

Benchmarks et évaluation des performances

  • Meilleur score sur Terminal-Bench 2.0, et première place parmi tous les modèles frontier sur Humanity’s Last Exam
  • Sur l’évaluation GDPval-AA, il obtient une performance supérieure d’environ 144 points Elo à GPT-5.2 et de 190 points à Opus 4.5
  • Il atteint aussi les meilleures performances sur le test BrowseComp, renforçant ses capacités de recherche d’informations en ligne
  • Sur MRCR v2 (1M variant), il obtient 76 %, contre 18,5 % pour Sonnet 4.5, soit une nette progression
  • La conservation du contexte long et la capacité à suivre l’information ont été améliorées, réduisant le phénomène de context rot
Publicité

Premières expériences d’utilisation et retours des partenaires

  • Les tests d’ingénierie internes montrent une amélioration des capacités de résolution de problèmes complexes et du jugement
    • Sur les problèmes difficiles, il approfondit sa réflexion de manière itérative pour produire de meilleurs résultats
    • Sur les tâches simples, une réflexion excessive peut rallonger le temps de réponse, mais cela peut être ajusté via le paramètre /effort
  • Les premiers partenaires estiment qu’Opus 4.6 excelle dans la capacité d’exécution autonome, le traitement de demandes complexes et le support à la collaboration en équipe
    • Excellente précision dans l’exploration de grandes bases de code, l’exécution parallèle de sous-tâches et l’identification des blocages
    • Haute précision dans l’analyse de contenus juridiques, financiers et techniques (par ex. BigLaw Bench 90,2 %)
    • Lors de tests réels, de meilleurs résultats qu’Opus 4.5 dans 38 enquêtes de cybersécurité sur 40
    • Un cas rapporté indique qu’une migration de code de plusieurs millions de lignes a été accomplie en deux fois moins de temps

Renforcement de la sûreté et de la sécurité

  • Les audits automatisés de comportement montrent un faible taux de comportements non alignés, comme la tromperie, la flatterie ou la coopération à des usages abusifs
  • C’est le modèle Claude avec le plus faible taux de refus excessif (over-refusal)
  • De nouvelles évaluations de sûreté ont été menées sur le bien-être des utilisateurs, le refus des requêtes à risque et la détection de comportements nuisibles dissimulés
  • Des travaux sur l’interprétabilité analysent les causes du fonctionnement interne du modèle et détectent d’éventuels problèmes
  • Avec le renforcement des capacités en cybersécurité, six nouvelles sondes de sécurité ont été introduites pour mieux détecter les abus
  • En usage défensif, il aide à détecter et corriger des vulnérabilités open source, avec un projet futur de blocage des abus en temps réel
Publicité

Mises à jour produit et API

  • Les fonctions suivantes ont été ajoutées à la Claude Developer Platform
    • Adaptive thinking : le modèle décide automatiquement s’il doit engager une réflexion approfondie selon la situation
    • Niveaux d’effort : quatre niveaux sont proposés, low, medium, high (par défaut) et max
    • Context compaction (bêta) : lorsque la conversation s’allonge, l’ancien contexte est résumé et remplacé
    • Prise en charge du contexte 1M de tokens (bêta) et de 128k tokens de sortie
    • Option d’inference limitée aux États-Unis (tarif x1,1)
  • Claude Code ajoute la fonction agent teams, permettant à plusieurs agents de collaborer en parallèle
  • Claude in Excel améliore sa capacité à structurer des données non structurées et à gérer des modifications en plusieurs étapes
  • Claude in PowerPoint (research preview) reconnaît les modèles de slides, les polices et les mises en page afin de préserver la cohérence de marque

Accès et tarification

  • Opus 4.6 est disponible immédiatement sur claude.ai, via l’API et sur les principales plateformes cloud
  • Son nom de modèle API est claude-opus-4-6, et son prix reste inchangé à $5/$25 per million tokens
  • Les prompts dépassant 200k tokens sont soumis à un tarif premium ($10/$37.50 per million tokens)

Conclusion

  • Claude Opus 4.6 marque une avancée majeure dans le traitement de contexte long, le travail autonome des agents et les capacités de raisonnement avancé
  • En renforçant à la fois les performances, la sûreté et la contrôlabilité pour les développeurs, il établit une nouvelle référence pour les outils d’IA orientés usage professionnel

9 commentaires

 
heim2 2026-02-06

J’utilise Max, et d’une certaine façon plus je consomme de tokens, plus j’ai l’impression d’en avoir pour mon argent… Si je ne les utilise pas, j’ai l’impression de gâcher…

 
duse0001 2026-02-06

Apparemment, la baisse de prix qui circulait sur Internet n’a pas été appliquée, hélas

 
wegaia 2026-02-06

On voit affluer sur Reddit des posts disant que les abonnés atteignent leurs limites à une vitesse fulgurante.
Comme j’ai aussi du travail en cours, je continue simplement à utiliser la 4.5 pour l’instant

 
duse0001 2026-02-06

Je m’attendais à ce que si le prix de l’API baissait, la limite hebdomadaire augmenterait naturellement, donc c’est dommage snif. La limite hebdomadaire du forfait à 200 dollars n’est pas très confortable non plus..

 
princox 2026-02-06

Pff, c’est vraiment trop radin… Anthropic, balancez-nous des tokens… !!

 
hmmhmmhm 2026-02-06

Oh, enfin~~~~

 
princox 2026-02-06

J’attendais Sonnet 5, mais c’était Opus 4.6 haha

 
GN⁺ 2026-02-06
Avis sur Hacker News
  • Le cadre du vélo est un peu de travers, mais le pélican lui-même est excellent
    L’image peut être vue ici

    • Je me demande si le modèle n’a pas été surajusté sur les dessins de pélicans
    • Je me demande si le choix de mots comme « generate » influence le résultat du modèle
      J’ai tout de suite remarqué que les deux pattes du pélican étaient du même côté, puis j’ai vérifié sur Wikipedia qu’en réalité ce n’est pas le cas
      Je me demande aussi s’ils ont essayé d’ajuster le prompt de façon itérative pour obtenir un résultat plus réaliste
    • En réalité, la plupart des gens ne savent pas non plus bien dessiner un vélo
      Ils se trompent souvent sur la structure du cadre ou les proportions géométriques
    • Il existe aussi une version animée
      Lien
    • Je me demande si on ne finira pas par atteindre un point où ces sorties seront réinjectées dans l’entraînement du modèle et lui permettront de passer les benchmarks
  • GPT‑5.3 Codex a affiché une performance écrasante de 77,3 % sur Terminal Bench
    Il est surprenant que le record ait été battu en seulement 35 minutes

    • Les performances des modèles varient selon l’heure ou la charge des serveurs, donc je me demande si l’on peut vraiment faire confiance à la fiabilité de ces benchmarks
      Je me demande aussi s’ils ne les font pas tourner à pleine puissance juste après la sortie, avant de réduire ensuite les coûts
    • En l’absence d’un rapport de benchmark large et détaillé, je me demande si on n’est pas revenu au benchmaxxing
      J’aimerais me faire un avis après l’avoir essayé moi-même
    • Un gain de 10 points est un changement important, mais je me demande si l’on ressentira aussi une différence qualitative à l’usage
      Je me demande si l’on n’a pas désormais atteint un état de saturation des benchmarks
    • Claude swe-bench est à 80,8, tandis que Codex est à 56,8, donc Claude 4.6 semble toujours globalement en tête
  • Voici un résumé des notes de version de Claude Code
    Ajout d’Opus 4.6, fonctionnalités de collaboration multi-agent, enregistrement automatique de la mémoire, résumés partiels de conversation, améliorations de VSCode, etc.

    • Le passage disant que « Claude enregistre et recharge automatiquement des souvenirs pendant le travail » est intéressant
      En regardant la documentation de la fonction mémoire, cela ressemble à un concept proche du Knowledge artifact de Google Antigravity
  • Je pense que deux choses sont mélangées dans la discussion
    La première est la rentabilité fondée sur le coût unitaire du token, la seconde est l’économie du cycle de vie du modèle
    Le coût de l’inférence peut être rentable, tout en laissant l’ensemble du programme du modèle déficitaire
    La vraie question est : « Combien de temps un modèle doit-il rester compétitif pour que cela tienne économiquement ? »

    • Il faut se souvenir de « worse is better »
      Même sans être le meilleur, un produit peut dominer le marché s’il est suffisamment bon et que le coût de changement est élevé
      Il peut être rationnel d’accepter des pertes au départ pour sécuriser le marché dans un domaine donné (par ex. le code)
    • Sur la base des tarifs API, il semble y avoir un léger bénéfice
      Mais la viabilité des offres avec une utilisation 20 fois supérieure reste douteuse
      Je ne sais pas si la « renaissance du vibe-coding » actuelle peut durer avec cette structure de coûts
    • Comme Dario l’a dit dans un podcast, les modèles sont rentables sur l’ensemble de leur durée de vie
      Les juger sur un compte de résultat annuel n’est pas approprié pour une entreprise d’IA
    • Ce qui est vraiment intéressant, c’est de savoir si le « forfait à 200 $/mois » est subventionné
      C’est lui qui soutient actuellement le boom du code orienté agent
      Il est probablement un peu subventionné, mais à long terme il pourrait augmenter d’environ 2x
  • L’arrivée d’une fenêtre de contexte de 1M est une énorme amélioration, et j’en suis très satisfait

  • Je comprends encore mal la stratégie d’Anthropic
    Le marketing vise le grand public, mais sa vraie force reste centrée sur le code
    Pour la recherche générale ou l’exploration d’informations, ChatGPT ou Gemini sont bien plus profonds et s’expriment mieux
    Ils font du marketing autour de la « constitution » ou des « droits humains », mais au final cela donne plutôt l’impression d’une approche très transactionnelle
    Cela dit, pour le code c’est excellent, donc je continue à payer

    • En dehors du code, Claude fonctionne aussi assez bien pour des conversations générales
      Même des amis non techniques sont passés de ChatGPT à Claude, et je n’en ai pas vu revenir en arrière
      Il y a 8 mois, cela ne valait vraiment le coup qu’en API, mais c’est désormais bien meilleur
    • Dans les langues autres que l’anglais, la qualité chute sévèrement
      Je suis tchécophone, et Claude invente des mots, tandis que Grok répond parfois en russe
      C’est bien pour coder, mais impossible pour les conversations générales
    • Le modèle ne semble pas naturel au quotidien
      Il est bon pour les tâches de type agent ou l’usage d’outils, mais je ne l’utilise pas pour des questions ordinaires
  • Opus 4.6 n’apparaissait pas dans l’installation, mais il est apparu après avoir relancé la commande d’installation (v2.1.32)
    Guide d’installation

    • Je l’utilise déjà
  • Je me demande si les coûts d’exploitation de l’IA/LLM sont réellement en baisse
    Le concept d’« équipe d’agents » est séduisant, mais faire tourner plusieurs modèles en parallèle semble en pratique difficile à cause du coût

    • Le coût par token baisse régulièrement
      OpenAI a réduit le prix d’o3 à un cinquième grâce à des optimisations d’ingénierie, et d’autres entreprises ont obtenu des réductions comparables
      L’ancienne idée selon laquelle « ils perdent de l’argent sur chaque requête » est fausse
    • Cette rumeur revient sans cesse, mais en réalité je ne pense pas que le coût unitaire de l’inférence puisse être inférieur au coût réel
      L’entreprise dans son ensemble est déficitaire à cause de la R&D et de l’entraînement, mais l’usage de l’API lui-même est rentable
      Même des modèles open comme DeepSeek génèrent des bénéfices à des prix bien plus bas
    • Si l’on regarde les données réelles, il est peu probable qu’ils vendent à perte
      Par exemple, Claude 4 (environ 400B de paramètres) est bien plus cher que DeepSeek V3 (680B)
      Claude : entrée 1 $/M, sortie 5 $/M vs DeepSeek : entrée 0,4 $/M, sortie 1,2 $/M
      Cette différence vient du fait qu’Anthropic doit amortir ses coûts d’entraînement
      Tarifs DeepSeek, Tarifs Claude
    • Le calcul réel du résultat est difficile, car il y a beaucoup d’incertitudes autour de l’amortissement et de la durée de vie du modèle
      Si l’on ne regarde que les revenus de l’inférence, c’est rentable, mais ce n’est pas forcément le cas une fois tous les coûts intégrés
    • L’usage des agents IA reste encore limité
      Je m’en sers comme assistant de code, mais il faut souvent corriger la trajectoire
      Cela reste tout de même bien moins cher que d’embaucher du personnel expérimenté
  • La formule « We build Claude with Claude » est assez intéressante

    • Claude Code a plus de 6 000 issues ouvertes
      Elles sont automatiquement nettoyées après 60 jours d’inactivité, mais leur nombre continue d’augmenter
    • Je pense que c’est un produit très réussi
      Cette formule n’a pas beaucoup de sens en dehors du biais qu’elle révèle
    • J’y vois un bon exemple de l’importance du dogfooding
      Utiliser soi-même son propre produit est le meilleur moyen d’en améliorer la qualité
    • Le sandboxing de CC est quasiment une blague
      C’est la raison pour laquelle les wrappers se multiplient autant, et j’ai l’impression qu’il y aura un incident de sécurité un jour
    • Cela explique donc pourquoi Claude Code est structuré comme une application React rendue dans le terminal
  • Ils offrent aussi 50 $ de crédit supplémentaires pour essayer Opus 4.6
    Vous pouvez les récupérer directement sur la page d’utilisation
    C’est probablement pour anticiper une hausse de l’usage des tokens ou pour promouvoir le modèle