- Claude Opus 4.6 et Sonnet 4.6 prennent désormais en charge une fenêtre de contexte de 1 million de tokens (1M) au tarif standard, avec accès à toute la plage sans surcoût premium
- La tarification reste inchangée : Opus 4.6 est à $5/$25, Sonnet 4.6 à $3/$15 (entrée/sortie), avec la même facturation proportionnelle pour une requête de 9K comme de 900K
- La limite d’entrées multimédias est multipliée par 6, permettant de traiter jusqu’à 600 images ou pages PDF en une fois, avec disponibilité immédiate aussi sur Azure Foundry et Google Vertex AI
- Les utilisateurs Max, Team et Enterprise de Claude Code peuvent utiliser automatiquement le contexte 1M, avec moins de compression de session et une meilleure continuité des conversations
- La fonctionnalité est présentée comme un moyen d’améliorer précision et efficacité tout en conservant des contextes longs et complexes, comme de grandes bases de code, des contrats ou des journaux d’exploitation
Aperçu de la disponibilité générale du contexte 1M
- Opus 4.6 et Sonnet 4.6 proposent une fenêtre de contexte 1M sur Claude Platform au tarif standard
- Opus 4.6 coûte $5 en entrée / $25 en sortie par million de tokens, Sonnet 4.6 $3/$15
- Aucun tarif différencié selon la taille de la requête
- Suppression du premium pour les longs contextes, avec le même débit à toutes les longueurs de contexte
- Limite d’entrées multimédias multipliée par 6 : prise en charge de jusqu’à 600 images ou pages PDF
- Aucun en-tête bêta requis, les requêtes de plus de 200K tokens étant traitées automatiquement
Intégration à Claude Code
- Le contexte 1M s’active automatiquement lors de l’utilisation d’Opus 4.6 dans les offres Max, Team et Enterprise de Claude Code
- Réduction de la compression de conversation (compaction) au sein d’une session
- Auparavant, cela nécessitait un usage supplémentaire ; c’est désormais inclus par défaut
Performances et précision du modèle
- Opus 4.6 atteint 78,3 % sur MRCR v2, soit la meilleure performance parmi les modèles de même longueur de contexte
- La précision est maintenue même avec un contexte 1M, avec de meilleures performances de recherche sur de longs textes
- De grandes bases de code, des contrats ou des journaux d’agents sur de longues durées peuvent être traités en conservant l’intégralité du contexte
- Conservation de l’ensemble de la conversation sans résumé ni réinitialisation du contexte
Cas d’usage concrets
- Recherche scientifique : analyse intégrée en une fois de centaines d’articles, de cadres mathématiques et de code de simulation (Alex Wissner-Gross)
- Travail juridique : comparaison de plusieurs versions d’un contrat de 100 pages dans une seule session (Bardia Pourvakil)
- Analyse de systèmes d’exploitation : conservation en vue d’ensemble de tous les signaux et hypothèses pendant la réponse à un incident (Mayank Agarwal)
- Recherche en IA et revue de code : traitement en une seule fois de gros fichiers diff pour améliorer la qualité (Adhyyan Sekhsaria)
- Analyse de données et débogage : conservation des détails sans perte lors de recherches dans Datadog, des bases de données et du code source (Anton Biryukov)
- Amélioration de l’efficacité des agents : baisse de 15 % des événements de compression du contexte, avec conservation des informations initiales même dans les longues sessions (Jon Bell)
Plateformes disponibles et prise en main
- Le contexte 1M est disponible immédiatement sur Claude Platform, Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry
- Les utilisateurs Max, Team et Enterprise de Claude Code basé sur Opus 4.6 bénéficient du contexte 1M par défaut
- Les détails sont disponibles dans la documentation officielle et sur la page pricing
1 commentaires
Commentaires Hacker News
Opus 4.6 est vraiment impressionnant
Que ce soit pour le frontend, le backend ou les algorithmes, il s’en sort bien sur à peu près tout
En partant d’un PRD, en établissant un plan étape par étape puis en l’exécutant point par point, on obtient en quelques heures un résultat qui fonctionne réellement
C’est la première IA qui m’a fait penser : « ça a l’air plus intelligent que moi »
Et avec la technologie actuelle, on peut même faire tourner plusieurs agents en parallèle à une vitesse de 1k tokens par seconde
J’ai confié à Claude Code basé sur Opus 4.6 un refactoring de code React, en remplaçant useState/useEffect → useMemo
Le plan était excellent, mais sur une partie du code il a placé des déclarations de variables au mauvais endroit, ce qui a créé des références undefined
Quand il a essayé de corriger, il a plutôt voulu remanier largement la structure, donc j’ai fini par le réparer à la main
Au final, j’ai quand même gagné du temps, mais ça a été une expérience assez agaçante
J’ai essayé d’utiliser Opus 4.6 pour créer un harness de test d’outil de diff de base de données, mais il a généré des tests pour un ancien outil sans rapport
Le code de test n’appelait même pas les vraies fonctions et réimplémentait directement la logique
Ce n’est qu’après 4 heures et 75 $ dépensés que j’ai obtenu quelque chose qui tournait à peu près, mais la qualité n’était pas terrible
Dans mon entreprise aussi, on nous a demandé d’augmenter le budget d’usage de Claude, mais tout le monde galère de la même manière
Pour l’instant, c’est bien plus efficace de l’utiliser pour des modifications partielles ou du débogage dans VS Studio
C’était un problème de calcul de sédiments qui s’accumulent dans un bassin topographique, et Opus répétait sans cesse trois explications contradictoires
Même après trois essais, il retombait dans la même boucle, donc j’ai fini par forcer une approche en brute force
Un humain ne serait sans doute pas tombé dans ce genre de boucle dès la deuxième tentative
Il ne se contente pas de suivre des instructions ; il propose de lui-même des idées d’amélioration non demandées
Le cœur de cette mise à jour, c’est l’application du tarif standard à toute la fenêtre de 1M tokens et la prise en charge de 600 images/pages PDF
C’est un gros changement pour les utilisateurs de Claude Code
Comme dans la recherche de Dex Horthy, j’ai trouvé plus stable de rester sous les 40 % (environ 80k tokens)
Au passage, la vidéo « No vibes allowed » est ici
Jusqu’à 700k tokens, ça allait, mais au-delà, j’ai commencé à sentir que ça devenait un peu moins vif
C’est plus fiable de l’utiliser en mode pair programming qu’en automatisation complète
Une entrée de 800k coûte 8 fois plus qu’une de 100k ; sans cache efficace, ça peut vite devenir une facture API explosive
Il oublie souvent le contexte en cours de conversation
Certains disent qu’il vaut simplement mieux écrire le code soi-même
Dans ma carrière, je suis passé de Python à C/C++
Avec Python, Opus fait parfois mieux que moi, mais côté embarqué il reste au niveau junior
Au final, je pense que c’est un problème de qualité des données d’entraînement
Donc les LLM ne remplaceront probablement pas les ingénieurs hardware de sitôt
J’ai mis en place des vérifications CI pour éviter le thrashing dans le code produit par l’IA
Les agents échouaient souvent à répétition sur des tests puis ajoutaient des imports fantômes ou des API deprecated
Du coup, on lance à chaque PR un scan léger pour repérer des packages npm inexistants ou des sorties de contexte
L’analyse statique classique ne regarde que la syntaxe, alors que le code généré par l’IA est souvent sémantiquement incorrect
À l’avenir, ce genre de validation fondée sur la connaissance du domaine me paraît indispensable
Un message demandait pourquoi les performances chutent autour de 100k tokens
Beaucoup estiment que le contexte réellement exploitable est plus petit
C’est peut-être une illusion due à mes anciennes expériences
Que j’utilise 90k tokens sur une fenêtre de 100k ou de 1M, ça se dégrade à peu près pareil
Sur de grandes bases de code, la qualité du prompt est essentielle
traiter 1M tokens impose d’utiliser diverses techniques d’approximation, ce qui pourrait expliquer la baisse de performance
Dans Claude Code 2.1.75, la distinction entre Opus standard et Opus 1M a disparu
Cela semble aussi être le cas sur l’offre Pro, mais en réalité il reste encore des limitations
C’est probablement une stratégie d’Anthropic pour répondre à la concurrence de la fenêtre 1M de GPT 5.4
La politique tarifaire de Claude est étrange
L’offre 5X coûte exactement 5 fois le prix de l’offre précédente
Normalement, les gros volumes donnent droit à une remise, mais pas ici
Ils semblent même considérer qu’il vaut mieux que 5 personnes l’utilisent un peu plutôt qu’un seul utilisateur 5 fois plus
Après l’avoir essayé aujourd’hui, le changement est vraiment intéressant
On peut désormais faire tenir plusieurs sessions parallèles de sous-agents dans une seule session maître
Opus 1M serait comparable au niveau 256k de GPT 5.4, mais avec très peu de dégradation qualitative
En revanche, ce n’est pas une chute brutale comme sur les modèles q4 ’25
Sans doute parce qu’il utilisait les tokens de manière plus agressive, sans chercher à économiser
Apparemment, l’entreprise ne prend en charge que GitHub Copilot
Une question demandait si les longues sessions épuisent rapidement le budget de tokens
Comme le contexte précédent est renvoyé à chaque fois, le coût augmente à mesure que la conversation s’allonge
Avec des appels d’outils fréquents, cela peut être facturé plusieurs fois par minute
Il est possible de mettre en cache jusqu’à 900k tokens