Claude Opus 4.7
(anthropic.com)- Les performances avancées en ingénierie logicielle ont été renforcées, permettant de traiter des tâches complexes et de longue durée avec un haut niveau de cohérence et de précision
- La vision et la compréhension multimodale ont été améliorées, rendant possible l’analyse d’informations visuelles complexes comme des images haute résolution, des diagrammes techniques et des structures chimiques
- Des garde-fous de cybersécurité intégrés détectent et bloquent automatiquement les requêtes à haut risque, tandis que les chercheurs en sécurité légitimes peuvent participer au Cyber Verification Program
- De nouvelles fonctions comme le contrôle Effort, Task Budget et la commande ultrareview améliorent l’efficacité des travaux de longue durée et la capacité de vérification de la qualité du code
- Des performances en hausse de 13 % par rapport à Opus 4.6 et une forte fiabilité ont été atteintes, Anthropic s’appuyant dessus pour préparer une ouverture sécurisée des modèles de classe Mythos
Présentation de Claude Opus 4.7
- Claude Opus 4.7 est un modèle dont les performances avancées en ingénierie logicielle ont nettement progressé par rapport à Opus 4.6, lui permettant de gérer des tâches complexes et longues avec une grande cohérence et précision
- Les utilisateurs peuvent lui confier en toute confiance des tâches de programmation plus difficiles qu’auparavant, le modèle vérifiant lui-même ses résultats avant de les restituer
- Les capacités de vision ont été renforcées, offrant une grande qualité et créativité sur des images haute résolution, interfaces, slides et documents
- Même si ses capacités générales sont inférieures à celles de l’Anthropic Claude Mythos Preview, il obtient de meilleurs résultats qu’Opus 4.6 sur divers benchmarks
- Il est disponible dans toute la gamme Claude et via l’API, Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry, au même prix qu’Opus 4.6
Mesures liées à la cybersécurité
- Avec Project Glasswing, Anthropic rend publics les risques et bénéfices de l’IA en cybersécurité, limite la diffusion de Mythos Preview et choisit de mener d’abord les expérimentations de sécurité sur des modèles moins puissants
- Opus 4.7 est le premier modèle de cette approche et inclut des garde-fous qui détectent et bloquent automatiquement les requêtes de cybersécurité interdites ou à haut risque
- Anthropic se prépare à une diffusion plus large des futurs modèles de classe Mythos à partir de données de déploiement réelles
- Les chercheurs en sécurité légitimes (analyse de vulnérabilités, tests d’intrusion, red team, etc.) peuvent participer au Cyber Verification Program
Principales performances et retours utilisateurs
- Les premiers tests ont confirmé sa capacité à détecter lui-même des erreurs logiques et à accélérer l’exécution
- Il excelle dans les workflows asynchrones, le CI/CD et les tâches d’automatisation de longue durée, en apportant une approche approfondie des problèmes et des avis argumentés plutôt qu’un simple acquiescement
- Il évite les raisonnements erronés en cas de données manquantes et ne tombe pas dans les pièges liés à des données incohérentes
- Sur 93 benchmarks de code, il affiche une amélioration de 13 % par rapport à Opus 4.6 et résout en plus 4 tâches auparavant insolubles
- Il montre une cohérence de tout premier plan en efficacité sur les tâches multi-étapes et dépasse Opus 4.6 sur un module financier avec un score de 0,813 contre 0,767
- La compréhension multimodale progresse, améliorant l’interprétation des structures chimiques et des diagrammes techniques complexes
- Sa capacité à exécuter de manière autonome des tâches de longue durée a été renforcée, permettant une résolution de problèmes cohérente pendant plusieurs heures
- Plusieurs entreprises, dont Replit, Harvey, Hex, Notion, Databricks et Vercel, rapportent des progrès en qualité du code, précision des appels d’outils et fiabilité des workflows de longue durée
- Exemple concret : il a développé de façon totalement autonome un moteur de synthèse vocale en Rust et a lui-même vérifié sa conformité avec un modèle de référence Python
Principales améliorations observées lors des premiers tests
-
Précision dans l’interprétation des instructions
- Opus 4.7 interprète les consignes de manière littérale et les suit bien plus strictement que les modèles précédents
- Des prompts existants peuvent produire des résultats inattendus, d’où la nécessité de les réajuster
-
Renforcement du support multimodal
- Il peut traiter des images jusqu’à une résolution de 2 576 pixels maximum (environ 3,75 MP)
- Il convient bien aux tâches exploitant des informations visuelles détaillées, comme l’analyse de diagrammes complexes ou l’extraction de données à partir de captures d’écran
-
Performances en situation réelle
- Dans des domaines comme la finance, les présentations et la modélisation, il assure un niveau plus élevé d’expertise et de cohérence qu’Opus 4.6
- L’évaluation externe GDPval-AA le place aussi au plus haut niveau dans le travail intellectuel de type connaissance, notamment en finance et en droit
-
Utilisation de la mémoire
- Il exploite efficacement une mémoire basée sur le système de fichiers pour mémoriser et réutiliser le contexte de travail sur plusieurs sessions
Évaluation de la sécurité et de l’alignement
- Globalement, il présente un profil de sécurité similaire à celui d’Opus 4.6, avec une faible fréquence de problèmes comme la tromperie, la flatterie ou la coopération à des usages abusifs
- L’honnêteté et la résistance aux injections de prompts malveillants se sont améliorées, même si certains domaines (par exemple des conseils excessifs liés aux drogues) se sont légèrement dégradés
- L’évaluation conclut qu’il est globalement bien aligné et fiable, sans être parfaitement idéal
- Mythos Preview reste évalué comme le modèle le mieux aligné
Fonctions supplémentaires lancées
-
Renforcement du contrôle Effort
- Un nouveau niveau
xhighest ajouté entrehighetmax, permettant un réglage plus fin entre capacité de raisonnement et latence - Dans Claude Code, le niveau Effort par défaut passe à
xhigh
- Un nouveau niveau
-
Claude Platform(API)
- Avec le support des images haute résolution, la fonction Task Budget est proposée en bêta publique, permettant d’ajuster les priorités d’usage des tokens sur les tâches de longue durée
-
Claude Code
- La nouvelle commande
/ultrareviewpermet de lancer des sessions de revue des changements de code et de détection de bugs - Les utilisateurs Pro et Max bénéficient de 3 ultrareview gratuits
- Le mode Auto est étendu aux utilisateurs Max afin de réduire les étapes d’approbation sur les tâches longues et de permettre une exécution sans interruption
- La nouvelle commande
Migration d’Opus 4.6 vers 4.7
- Opus 4.7 peut faire l’objet d’une mise à niveau directe, mais il faut prêter attention aux variations d’usage des tokens
- En raison du nouveau tokenizer, une même entrée peut être convertie en environ 1,0 à 1,35 fois plus de tokens
- À des niveaux Effort élevés, le modèle effectue davantage de raisonnement, ce qui peut augmenter le nombre de tokens en sortie
- L’usage des tokens peut être contrôlé grâce au paramètre Effort, à Task Budget et à une conception de prompts concise
- Les tests internes ont confirmé une amélioration de l’efficacité à tous les niveaux Effort
- Les méthodes détaillées de mise à niveau sont fournies dans le Migration Guide
Aucun commentaire pour le moment.