Début de la disponibilité générale du contexte 1M dans Opus 4.6 et Sonnet 4.6

(claude.com)

1 points par GN⁺ 2026-03-14 | 1 commentaires | Partager sur WhatsApp

Claude Opus 4.6 et Sonnet 4.6 prennent désormais en charge une fenêtre de contexte de 1 million de tokens (1M) au tarif standard, avec accès à toute la plage sans surcoût premium
La tarification reste inchangée : Opus 4.6 est à $5/$25, Sonnet 4.6 à $3/$15 (entrée/sortie), avec la même facturation proportionnelle pour une requête de 9K comme de 900K
La limite d’entrées multimédias est multipliée par 6, permettant de traiter jusqu’à 600 images ou pages PDF en une fois, avec disponibilité immédiate aussi sur Azure Foundry et Google Vertex AI
Les utilisateurs Max, Team et Enterprise de Claude Code peuvent utiliser automatiquement le contexte 1M, avec moins de compression de session et une meilleure continuité des conversations
La fonctionnalité est présentée comme un moyen d’améliorer précision et efficacité tout en conservant des contextes longs et complexes, comme de grandes bases de code, des contrats ou des journaux d’exploitation

Aperçu de la disponibilité générale du contexte 1M

Opus 4.6 et Sonnet 4.6 proposent une fenêtre de contexte 1M sur Claude Platform au tarif standard
- Opus 4.6 coûte $5 en entrée / $25 en sortie par million de tokens, Sonnet 4.6 $3/$15
- Aucun tarif différencié selon la taille de la requête
Suppression du premium pour les longs contextes, avec le même débit à toutes les longueurs de contexte
Limite d’entrées multimédias multipliée par 6 : prise en charge de jusqu’à 600 images ou pages PDF
Aucun en-tête bêta requis, les requêtes de plus de 200K tokens étant traitées automatiquement

Intégration à Claude Code

Le contexte 1M s’active automatiquement lors de l’utilisation d’Opus 4.6 dans les offres Max, Team et Enterprise de Claude Code
- Réduction de la compression de conversation (compaction) au sein d’une session
- Auparavant, cela nécessitait un usage supplémentaire ; c’est désormais inclus par défaut

Performances et précision du modèle

Opus 4.6 atteint 78,3 % sur MRCR v2, soit la meilleure performance parmi les modèles de même longueur de contexte
La précision est maintenue même avec un contexte 1M, avec de meilleures performances de recherche sur de longs textes
De grandes bases de code, des contrats ou des journaux d’agents sur de longues durées peuvent être traités en conservant l’intégralité du contexte
- Conservation de l’ensemble de la conversation sans résumé ni réinitialisation du contexte

Cas d’usage concrets

Recherche scientifique : analyse intégrée en une fois de centaines d’articles, de cadres mathématiques et de code de simulation (Alex Wissner-Gross)
Travail juridique : comparaison de plusieurs versions d’un contrat de 100 pages dans une seule session (Bardia Pourvakil)
Analyse de systèmes d’exploitation : conservation en vue d’ensemble de tous les signaux et hypothèses pendant la réponse à un incident (Mayank Agarwal)
Recherche en IA et revue de code : traitement en une seule fois de gros fichiers diff pour améliorer la qualité (Adhyyan Sekhsaria)
Analyse de données et débogage : conservation des détails sans perte lors de recherches dans Datadog, des bases de données et du code source (Anton Biryukov)
Amélioration de l’efficacité des agents : baisse de 15 % des événements de compression du contexte, avec conservation des informations initiales même dans les longues sessions (Jon Bell)

Plateformes disponibles et prise en main

Le contexte 1M est disponible immédiatement sur Claude Platform, Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry
Les utilisateurs Max, Team et Enterprise de Claude Code basé sur Opus 4.6 bénéficient du contexte 1M par défaut
Les détails sont disponibles dans la documentation officielle et sur la page pricing

1 commentaires

GN⁺ 2026-03-14

Commentaires Hacker News

Opus 4.6 est vraiment impressionnant
Que ce soit pour le frontend, le backend ou les algorithmes, il s’en sort bien sur à peu près tout
En partant d’un PRD, en établissant un plan étape par étape puis en l’exécutant point par point, on obtient en quelques heures un résultat qui fonctionne réellement
C’est la première IA qui m’a fait penser : « ça a l’air plus intelligent que moi »
Et avec la technologie actuelle, on peut même faire tourner plusieurs agents en parallèle à une vitesse de 1k tokens par seconde
- J’aurais aimé vivre ce genre d’expérience
  J’ai confié à Claude Code basé sur Opus 4.6 un refactoring de code React, en remplaçant useState/useEffect → useMemo
  Le plan était excellent, mais sur une partie du code il a placé des déclarations de variables au mauvais endroit, ce qui a créé des références undefined
  Quand il a essayé de corriger, il a plutôt voulu remanier largement la structure, donc j’ai fini par le réparer à la main
  Au final, j’ai quand même gagné du temps, mais ça a été une expérience assez agaçante
- Je suis curieux de savoir ce que tu es en train de construire
  J’ai essayé d’utiliser Opus 4.6 pour créer un harness de test d’outil de diff de base de données, mais il a généré des tests pour un ancien outil sans rapport
  Le code de test n’appelait même pas les vraies fonctions et réimplémentait directement la logique
  Ce n’est qu’après 4 heures et 75 $ dépensés que j’ai obtenu quelque chose qui tournait à peu près, mais la qualité n’était pas terrible
  Dans mon entreprise aussi, on nous a demandé d’augmenter le budget d’usage de Claude, mais tout le monde galère de la même manière
  Pour l’instant, c’est bien plus efficace de l’utiliser pour des modifications partielles ou du débogage dans VS Studio
- Une fois, je suis tombé dans une boucle IA
  C’était un problème de calcul de sédiments qui s’accumulent dans un bassin topographique, et Opus répétait sans cesse trois explications contradictoires
  Même après trois essais, il retombait dans la même boucle, donc j’ai fini par forcer une approche en brute force
  Un humain ne serait sans doute pas tombé dans ce genre de boucle dès la deuxième tentative
- Pour moi, Opus 4.6 est déjà au niveau AGI
  Il ne se contente pas de suivre des instructions ; il propose de lui-même des idées d’amélioration non demandées
Le cœur de cette mise à jour, c’est l’application du tarif standard à toute la fenêtre de 1M tokens et la prise en charge de 600 images/pages PDF
C’est un gros changement pour les utilisateurs de Claude Code
- Je me demande si remplir entièrement une fenêtre de 1M est vraiment utile
  Comme dans la recherche de Dex Horthy, j’ai trouvé plus stable de rester sous les 40 % (environ 80k tokens)
  Au passage, la vidéo « No vibes allowed » est ici
- Dans mon entreprise, on utilise réellement la fenêtre de 1M dans le travail quotidien
  Jusqu’à 700k tokens, ça allait, mais au-delà, j’ai commencé à sentir que ça devenait un peu moins vif
  C’est plus fiable de l’utiliser en mode pair programming qu’en automatisation complète
- Plus le contexte est grand, plus le coût des tokens d’entrée augmente
  Une entrée de 800k coûte 8 fois plus qu’une de 100k ; sans cache efficace, ça peut vite devenir une facture API explosive
- Quelqu’un a plaisanté : « Donc une image vaut 1 666 mots ? »
- Dans mon cas, la qualité du code se dégrade brutalement avec une fenêtre de 1M
  Il oublie souvent le contexte en cours de conversation
Certains disent qu’il vaut simplement mieux écrire le code soi-même
Dans ma carrière, je suis passé de Python à C/C++
Avec Python, Opus fait parfois mieux que moi, mais côté embarqué il reste au niveau junior
Au final, je pense que c’est un problème de qualité des données d’entraînement
Donc les LLM ne remplaceront probablement pas les ingénieurs hardware de sitôt
J’ai mis en place des vérifications CI pour éviter le thrashing dans le code produit par l’IA
Les agents échouaient souvent à répétition sur des tests puis ajoutaient des imports fantômes ou des API deprecated
Du coup, on lance à chaque PR un scan léger pour repérer des packages npm inexistants ou des sorties de contexte
L’analyse statique classique ne regarde que la syntaxe, alors que le code généré par l’IA est souvent sémantiquement incorrect
À l’avenir, ce genre de validation fondée sur la connaissance du domaine me paraît indispensable
Un message demandait pourquoi les performances chutent autour de 100k tokens
Beaucoup estiment que le contexte réellement exploitable est plus petit
- Avec Opus 4.6, je n’ai presque pas ressenti ce déclin des performances
  C’est peut-être une illusion due à mes anciennes expériences
- D’après mon expérience, la dégradation du contexte (context rot) est toujours bien là
  Que j’utilise 90k tokens sur une fenêtre de 100k ou de 1M, ça se dégrade à peu près pareil
  Sur de grandes bases de code, la qualité du prompt est essentielle
- À mon avis, le graphique de benchmark donne déjà la réponse à lui seul
- Comme la complexité de l’attention (attention) des Transformers augmente avec le carré de la taille du contexte,
  traiter 1M tokens impose d’utiliser diverses techniques d’approximation, ce qui pourrait expliquer la baisse de performance
Dans Claude Code 2.1.75, la distinction entre Opus standard et Opus 1M a disparu
Cela semble aussi être le cas sur l’offre Pro, mais en réalité il reste encore des limitations
C’est probablement une stratégie d’Anthropic pour répondre à la concurrence de la fenêtre 1M de GPT 5.4
- Sur Max 20x, cela existe toujours comme modèle séparé
- Sur Pro, le contexte 1M est toujours facturé en supplément
La politique tarifaire de Claude est étrange
L’offre 5X coûte exactement 5 fois le prix de l’offre précédente
Normalement, les gros volumes donnent droit à une remise, mais pas ici
- Anthropic a déjà une demande supérieure à l’offre, donc ils n’ont pas besoin d’inciter les gens à consommer davantage
  Ils semblent même considérer qu’il vaut mieux que 5 personnes l’utilisent un peu plutôt qu’un seul utilisateur 5 fois plus
- L’offre 5X sert d’appel, et la vraie stratégie serait surtout de vendre l’offre 20x
- Quelqu’un a lancé la blague : « Ils se rattraperont sur le volume »
- Certains estiment aussi que les deux offres restent de bonnes affaires subventionnées
Après l’avoir essayé aujourd’hui, le changement est vraiment intéressant
On peut désormais faire tenir plusieurs sessions parallèles de sous-agents dans une seule session maître
Opus 1M serait comparable au niveau 256k de GPT 5.4, mais avec très peu de dégradation qualitative
En revanche, ce n’est pas une chute brutale comme sur les modèles q4 ’25
- J’utilisais souvent Sonnet 4.5 1M ; les performances étaient comparables, mais la vitesse était nettement meilleure
  Sans doute parce qu’il utilisait les tokens de manière plus agressive, sans chercher à économiser
- Un commentaire demandait si c’était payé à titre personnel ou par l’entreprise
  Apparemment, l’entreprise ne prend en charge que GitHub Copilot
Une question demandait si les longues sessions épuisent rapidement le budget de tokens
Comme le contexte précédent est renvoyé à chaque fois, le coût augmente à mesure que la conversation s’allonge
- Oui. Même avec du cache, à 800k tokens on est autour de 0,40 $ par requête, donc l’addition monte vite
  Avec des appels d’outils fréquents, cela peut être facturé plusieurs fois par minute
- En exploitant bien le cache de contexte, on peut réduire fortement les coûts
  Il est possible de mettre en cache jusqu’à 900k tokens

Début de la disponibilité générale du contexte 1M dans Opus 4.6 et Sonnet 4.6

Aperçu de la disponibilité générale du contexte 1M

Intégration à Claude Code

Performances et précision du modèle

Cas d’usage concrets

Plateformes disponibles et prise en main

À lire aussi

1 commentaires

Commentaires Hacker News