Claude Opus 4.7
(anthropic.com)- Les performances avancées en ingénierie logicielle ont été renforcées, permettant de traiter des tâches complexes et de longue durée avec un haut niveau de cohérence et de précision
- La vision et la compréhension multimodale ont été améliorées, rendant possible l’analyse d’informations visuelles complexes comme des images haute résolution, des diagrammes techniques et des structures chimiques
- Des garde-fous de cybersécurité intégrés détectent et bloquent automatiquement les requêtes à haut risque, tandis que les chercheurs en sécurité légitimes peuvent participer au Cyber Verification Program
- De nouvelles fonctions comme le contrôle Effort, Task Budget et la commande ultrareview améliorent l’efficacité des travaux de longue durée et la capacité de vérification de la qualité du code
- Des performances en hausse de 13 % par rapport à Opus 4.6 et une forte fiabilité ont été atteintes, Anthropic s’appuyant dessus pour préparer une ouverture sécurisée des modèles de classe Mythos
Présentation de Claude Opus 4.7
- Claude Opus 4.7 est un modèle dont les performances avancées en ingénierie logicielle ont nettement progressé par rapport à Opus 4.6, lui permettant de gérer des tâches complexes et longues avec une grande cohérence et précision
- Les utilisateurs peuvent lui confier en toute confiance des tâches de programmation plus difficiles qu’auparavant, le modèle vérifiant lui-même ses résultats avant de les restituer
- Les capacités de vision ont été renforcées, offrant une grande qualité et créativité sur des images haute résolution, interfaces, slides et documents
- Même si ses capacités générales sont inférieures à celles de l’Anthropic Claude Mythos Preview, il obtient de meilleurs résultats qu’Opus 4.6 sur divers benchmarks
- Il est disponible dans toute la gamme Claude et via l’API, Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry, au même prix qu’Opus 4.6
Mesures liées à la cybersécurité
- Avec Project Glasswing, Anthropic rend publics les risques et bénéfices de l’IA en cybersécurité, limite la diffusion de Mythos Preview et choisit de mener d’abord les expérimentations de sécurité sur des modèles moins puissants
- Opus 4.7 est le premier modèle de cette approche et inclut des garde-fous qui détectent et bloquent automatiquement les requêtes de cybersécurité interdites ou à haut risque
- Anthropic se prépare à une diffusion plus large des futurs modèles de classe Mythos à partir de données de déploiement réelles
- Les chercheurs en sécurité légitimes (analyse de vulnérabilités, tests d’intrusion, red team, etc.) peuvent participer au Cyber Verification Program
Principales performances et retours utilisateurs
- Les premiers tests ont confirmé sa capacité à détecter lui-même des erreurs logiques et à accélérer l’exécution
- Il excelle dans les workflows asynchrones, le CI/CD et les tâches d’automatisation de longue durée, en apportant une approche approfondie des problèmes et des avis argumentés plutôt qu’un simple acquiescement
- Il évite les raisonnements erronés en cas de données manquantes et ne tombe pas dans les pièges liés à des données incohérentes
- Sur 93 benchmarks de code, il affiche une amélioration de 13 % par rapport à Opus 4.6 et résout en plus 4 tâches auparavant insolubles
- Il montre une cohérence de tout premier plan en efficacité sur les tâches multi-étapes et dépasse Opus 4.6 sur un module financier avec un score de 0,813 contre 0,767
- La compréhension multimodale progresse, améliorant l’interprétation des structures chimiques et des diagrammes techniques complexes
- Sa capacité à exécuter de manière autonome des tâches de longue durée a été renforcée, permettant une résolution de problèmes cohérente pendant plusieurs heures
- Plusieurs entreprises, dont Replit, Harvey, Hex, Notion, Databricks et Vercel, rapportent des progrès en qualité du code, précision des appels d’outils et fiabilité des workflows de longue durée
- Exemple concret : il a développé de façon totalement autonome un moteur de synthèse vocale en Rust et a lui-même vérifié sa conformité avec un modèle de référence Python
Principales améliorations observées lors des premiers tests
-
Précision dans l’interprétation des instructions
- Opus 4.7 interprète les consignes de manière littérale et les suit bien plus strictement que les modèles précédents
- Des prompts existants peuvent produire des résultats inattendus, d’où la nécessité de les réajuster
-
Renforcement du support multimodal
- Il peut traiter des images jusqu’à une résolution de 2 576 pixels maximum (environ 3,75 MP)
- Il convient bien aux tâches exploitant des informations visuelles détaillées, comme l’analyse de diagrammes complexes ou l’extraction de données à partir de captures d’écran
-
Performances en situation réelle
- Dans des domaines comme la finance, les présentations et la modélisation, il assure un niveau plus élevé d’expertise et de cohérence qu’Opus 4.6
- L’évaluation externe GDPval-AA le place aussi au plus haut niveau dans le travail intellectuel de type connaissance, notamment en finance et en droit
-
Utilisation de la mémoire
- Il exploite efficacement une mémoire basée sur le système de fichiers pour mémoriser et réutiliser le contexte de travail sur plusieurs sessions
Évaluation de la sécurité et de l’alignement
- Globalement, il présente un profil de sécurité similaire à celui d’Opus 4.6, avec une faible fréquence de problèmes comme la tromperie, la flatterie ou la coopération à des usages abusifs
- L’honnêteté et la résistance aux injections de prompts malveillants se sont améliorées, même si certains domaines (par exemple des conseils excessifs liés aux drogues) se sont légèrement dégradés
- L’évaluation conclut qu’il est globalement bien aligné et fiable, sans être parfaitement idéal
- Mythos Preview reste évalué comme le modèle le mieux aligné
Fonctions supplémentaires lancées
-
Renforcement du contrôle Effort
- Un nouveau niveau
xhighest ajouté entrehighetmax, permettant un réglage plus fin entre capacité de raisonnement et latence - Dans Claude Code, le niveau Effort par défaut passe à
xhigh
- Un nouveau niveau
-
Claude Platform(API)
- Avec le support des images haute résolution, la fonction Task Budget est proposée en bêta publique, permettant d’ajuster les priorités d’usage des tokens sur les tâches de longue durée
-
Claude Code
- La nouvelle commande
/ultrareviewpermet de lancer des sessions de revue des changements de code et de détection de bugs - Les utilisateurs Pro et Max bénéficient de 3 ultrareview gratuits
- Le mode Auto est étendu aux utilisateurs Max afin de réduire les étapes d’approbation sur les tâches longues et de permettre une exécution sans interruption
- La nouvelle commande
Migration d’Opus 4.6 vers 4.7
- Opus 4.7 peut faire l’objet d’une mise à niveau directe, mais il faut prêter attention aux variations d’usage des tokens
- En raison du nouveau tokenizer, une même entrée peut être convertie en environ 1,0 à 1,35 fois plus de tokens
- À des niveaux Effort élevés, le modèle effectue davantage de raisonnement, ce qui peut augmenter le nombre de tokens en sortie
- L’usage des tokens peut être contrôlé grâce au paramètre Effort, à Task Budget et à une conception de prompts concise
- Les tests internes ont confirmé une amélioration de l’efficacité à tous les niveaux Effort
- Les méthodes détaillées de mise à niveau sont fournies dans le Migration Guide
1 commentaires
Réactions sur Hacker News
Je trouve le nouveau concept d’adaptive thinking très déroutant
Avant, j’écrivais du code avec les modes thinking budget / effort, mais maintenant le fonctionnement est complètement différent
Même après avoir lu la documentation officielle, je n’ai toujours pas vraiment compris
En plus, dans la 4.7, aucun résumé de raisonnement lisible par un humain n’est affiché par défaut. Il faut ajouter soi-même l’option
"display": "summarized"Je suis en train de faire tourner le projet Pelican, et je reste bloqué à cause de cette nouvelle manière de reasoner
Voir aussi ce thread lié
En désactivant adaptive thinking et en augmentant l’effort, je suis revenu au niveau d’avant
Mais dire que « ça marche bien dans les évaluations internes » ne suffit pas. Beaucoup d’utilisateurs signalent le même problème
Capture d’écran
--thinking-display summarized, ait été ajoutée dans Claude CodeLes utilisateurs de VS Code peuvent créer un script wrapper contenant
exec "$@" --thinking-display summarizedet le mettre dans le paramètreclaudeCode.claudeProcessWrapperpour revoir les résumés de raisonnementAvant, exposer la CoT (Chain of Thought) des LLM était considéré comme essentiel pour la sécurité, mais on dirait que la direction a changé
Le nouveau tokenizer d’Opus 4.7 améliore l’efficacité du traitement de texte, mais les entrées sont mappées vers 1,0 à 1,35 fois plus de tokens
Du coup, je trouve que la sortie du projet caveman est au contraire plus lisible
dépôt caveman
Comme la majorité du contexte est consommée par la lecture de fichiers et le reasoning, le gain réel en tokens est inférieur à 1 %. Ça peut même rendre le modèle plus confus
app Mac, version CLI
Je pensais que les mots courants pouvaient être du bruit, mais la différence de résultat était presque nulle
J’aimerais faire un test comparatif avec caveman
C’est grâce à une baisse de l’usage des tokens de reasoning. Ça montre qu’il n’est plus très pertinent de comparer le coût des modèles uniquement au prix du token
En voyant l’annonce selon laquelle Anthropic a lancé Opus 4.7 comme modèle à restrictions cybersécurité, j’ai eu l’impression que c’était une stratégie vouée à l’échec
Vouloir censurer les connaissances en sécurité tout en développant en même temps des logiciels sûrs est contradictoire
À moins que tous les acteurs de l’IA appliquent la même politique, ce ne sera de toute façon pas vraiment efficace. Je pense qu’ils finiront par abandonner cette approche
Or ce type de restriction va dans le sens d’une centralisation de la sécurité, donc j’ai du mal à y voir une vraie amélioration
Comme si faire passer un entretien devant un tableau blanc faisait perdre 10 % de QI ; le modèle aussi se retrouve inhibé
On dirait donc qu’on s’oriente vers une forme de « stupidification sélective ». J’ai l’impression qu’ils sont déjà en train d’essayer
Le fait que l’attaquant n’ait besoin de réussir qu’une seule fois, tandis que le défenseur doit réussir à chaque fois permet de gagner un peu de temps
À cause de la baisse de qualité de la 4.6 la semaine dernière, j’ai fini par passer à Codex
La 4.6 ne faisait même pas de recherche web et remplissait 17K tokens de non-sens. Elle implémentait aussi complètement faux un exemple de traitement parallèle
La consommation de tokens a soudainement explosé, et la réponse désinvolte du support a été la goutte d’eau
Je peux comprendre les bugs, mais l’attitude envers les clients est difficilement acceptable
Depuis que je suis passé à Codex, au moins le travail avance, et c’est tout ce qui compte
Codex a doublé ses limites d’usage pour récupérer les clients de Claude, et la communication est bien meilleure
90 % des problèmes de Claude semblent venir d’un manque de compute
L’IA doit toujours sembler « progresser » ; la stagnation, c’est la mort du hype
C’est rapide, mais sortir plus vite du code de mauvaise qualité n’a aucun intérêt
Gemini CLI était encore plus lent et de qualité inférieure
Codex a aussi tendance à flatter en disant que tout est « parfait » même quand il y a des bugs, ce qui est dangereux
Sa capacité d’exécution est excellente, et OpenAI laisse les résultats parler sans faire beaucoup de marketing
Ça rappelle un peu les débuts de Google, avec une approche centrée sur la qualité du produit
Les filtres cybersécurité d’Opus 4.7 sont devenus si agressifs qu’ils bloquent même de la recherche légitime
Même en récupérant directement sur le web les directives du programme, c’est bloqué comme « requête dangereuse »
Si ça continue comme ça, je vais passer sur Codex
Comme l’indique la notice officielle, une procédure de vérification peut être nécessaire pour accéder à certaines fonctionnalités
À cause de ça, toute ma recherche en cours est bloquée
Le modèle a peut-être détecté dans son propre reasoning une étape jugée « offensive »
Quand la chasse aux bugs devient progressivement plus offensive, le filtre semble s’activer
Nous vivons désormais dans un monde où la violation de politique est le nouveau segfault
La simple présence de certains mots déclenche une réaction excessive
J’en suis arrivé à devoir faire valider par l’IA si mon projet est malveillant ou non. Je vais me désabonner
Ce thread est une bonne leçon pour les fondateurs
Il montre à quel point un peu de communication honnête peut suffire à désamorcer beaucoup de frustration
De mon côté, comme j’ai épinglé l’application sur Opus 4.5, il m’est aujourd’hui difficile de savoir si le problème vient du modèle ou du harness
Parfois, c’est juste de la malchance
Je pourrais alors adapter mes horaires et lancer les tâches lourdes la nuit
Dans ce genre de confusion, je pense qu’utiliser un broker de modèles ou une couche intermédiaire comme Copilot est plus sage
J’ai l’impression qu’il faudrait un service de type « IA standard » qui fournisse toujours le même modèle
D’après le benchmark privé de notre équipe, Opus 4.7 est plus stratégique et plus intelligent que 4.6/4.5
Il est quasiment au niveau de GPT-5.4 et, dans les sessions agentiques avec usage d’outils, il obtient même les meilleures performances
lien vers le benchmark
En revanche, il y a une légère régression dans le traitement du contexte. Nous sommes en train d’ajouter un benchmark pour le visualiser
Récemment, la confiance envers Anthropic a baissé
Le fait de sortir la 4.7 juste après la dégradation de la 4.6 est inquiétant
À ce stade, il faut une communication transparente
OpenAI a investi tôt dans le compute, et c’est maintenant un avantage majeur
Ils sont peut-être en train de distiller Mythos à partir d’Opus 4.7
C’est probablement dû à une mise à jour du harness
Ces derniers temps, les commentaires du type « je suis passé à Codex » se multiplient
Mais en pratique, après l’avoir testé, Codex reste encore en dessous de Claude
Ce genre de commentaires promotionnels ne fait qu’éroder la confiance
Dans notre entreprise, nous utilisons les deux modèles, mais moi, maintenant, j’utilise presque uniquement Codex
Je trouve la vitesse et les résultats meilleurs
En revanche, la qualité des réponses de Claude est meilleure. Les avantages et inconvénients sont très nets
Mais Codex produit des résultats « techniquement corrects mais humainement bizarres »
J’utilise donc Claude pour rédiger les spécifications et Codex pour exécuter
L’idée est qu’ils finiront par augmenter les prix plus tard
La politique de restrictions de sécurité d’Opus 4.7 pourrait être fatale
Pour étudier les attaques et les défendre, il faut des capacités symétriques, et empêcher cela est dangereux