Claude Opus 4.7

(anthropic.com)

4 points par GN⁺ 13 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Les performances avancées en ingénierie logicielle ont été renforcées, permettant de traiter des tâches complexes et de longue durée avec un haut niveau de cohérence et de précision
La vision et la compréhension multimodale ont été améliorées, rendant possible l’analyse d’informations visuelles complexes comme des images haute résolution, des diagrammes techniques et des structures chimiques
Des garde-fous de cybersécurité intégrés détectent et bloquent automatiquement les requêtes à haut risque, tandis que les chercheurs en sécurité légitimes peuvent participer au Cyber Verification Program
De nouvelles fonctions comme le contrôle Effort, Task Budget et la commande ultrareview améliorent l’efficacité des travaux de longue durée et la capacité de vérification de la qualité du code
Des performances en hausse de 13 % par rapport à Opus 4.6 et une forte fiabilité ont été atteintes, Anthropic s’appuyant dessus pour préparer une ouverture sécurisée des modèles de classe Mythos

Présentation de Claude Opus 4.7

Claude Opus 4.7 est un modèle dont les performances avancées en ingénierie logicielle ont nettement progressé par rapport à Opus 4.6, lui permettant de gérer des tâches complexes et longues avec une grande cohérence et précision
Les utilisateurs peuvent lui confier en toute confiance des tâches de programmation plus difficiles qu’auparavant, le modèle vérifiant lui-même ses résultats avant de les restituer
Les capacités de vision ont été renforcées, offrant une grande qualité et créativité sur des images haute résolution, interfaces, slides et documents
Même si ses capacités générales sont inférieures à celles de l’Anthropic Claude Mythos Preview, il obtient de meilleurs résultats qu’Opus 4.6 sur divers benchmarks
Il est disponible dans toute la gamme Claude et via l’API, Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry, au même prix qu’Opus 4.6

Mesures liées à la cybersécurité

Avec Project Glasswing, Anthropic rend publics les risques et bénéfices de l’IA en cybersécurité, limite la diffusion de Mythos Preview et choisit de mener d’abord les expérimentations de sécurité sur des modèles moins puissants
Opus 4.7 est le premier modèle de cette approche et inclut des garde-fous qui détectent et bloquent automatiquement les requêtes de cybersécurité interdites ou à haut risque
Anthropic se prépare à une diffusion plus large des futurs modèles de classe Mythos à partir de données de déploiement réelles
Les chercheurs en sécurité légitimes (analyse de vulnérabilités, tests d’intrusion, red team, etc.) peuvent participer au Cyber Verification Program

Principales performances et retours utilisateurs

Les premiers tests ont confirmé sa capacité à détecter lui-même des erreurs logiques et à accélérer l’exécution
Il excelle dans les workflows asynchrones, le CI/CD et les tâches d’automatisation de longue durée, en apportant une approche approfondie des problèmes et des avis argumentés plutôt qu’un simple acquiescement
Il évite les raisonnements erronés en cas de données manquantes et ne tombe pas dans les pièges liés à des données incohérentes
Sur 93 benchmarks de code, il affiche une amélioration de 13 % par rapport à Opus 4.6 et résout en plus 4 tâches auparavant insolubles
Il montre une cohérence de tout premier plan en efficacité sur les tâches multi-étapes et dépasse Opus 4.6 sur un module financier avec un score de 0,813 contre 0,767
La compréhension multimodale progresse, améliorant l’interprétation des structures chimiques et des diagrammes techniques complexes
Sa capacité à exécuter de manière autonome des tâches de longue durée a été renforcée, permettant une résolution de problèmes cohérente pendant plusieurs heures
Plusieurs entreprises, dont Replit, Harvey, Hex, Notion, Databricks et Vercel, rapportent des progrès en qualité du code, précision des appels d’outils et fiabilité des workflows de longue durée
Exemple concret : il a développé de façon totalement autonome un moteur de synthèse vocale en Rust et a lui-même vérifié sa conformité avec un modèle de référence Python

Principales améliorations observées lors des premiers tests

Précision dans l’interprétation des instructions
- Opus 4.7 interprète les consignes de manière littérale et les suit bien plus strictement que les modèles précédents
- Des prompts existants peuvent produire des résultats inattendus, d’où la nécessité de les réajuster
Renforcement du support multimodal
- Il peut traiter des images jusqu’à une résolution de 2 576 pixels maximum (environ 3,75 MP)
- Il convient bien aux tâches exploitant des informations visuelles détaillées, comme l’analyse de diagrammes complexes ou l’extraction de données à partir de captures d’écran
Performances en situation réelle
- Dans des domaines comme la finance, les présentations et la modélisation, il assure un niveau plus élevé d’expertise et de cohérence qu’Opus 4.6
- L’évaluation externe GDPval-AA le place aussi au plus haut niveau dans le travail intellectuel de type connaissance, notamment en finance et en droit
Utilisation de la mémoire
- Il exploite efficacement une mémoire basée sur le système de fichiers pour mémoriser et réutiliser le contexte de travail sur plusieurs sessions

Évaluation de la sécurité et de l’alignement

Globalement, il présente un profil de sécurité similaire à celui d’Opus 4.6, avec une faible fréquence de problèmes comme la tromperie, la flatterie ou la coopération à des usages abusifs
L’honnêteté et la résistance aux injections de prompts malveillants se sont améliorées, même si certains domaines (par exemple des conseils excessifs liés aux drogues) se sont légèrement dégradés
L’évaluation conclut qu’il est globalement bien aligné et fiable, sans être parfaitement idéal
Mythos Preview reste évalué comme le modèle le mieux aligné

Fonctions supplémentaires lancées

Renforcement du contrôle Effort
- Un nouveau niveau xhigh est ajouté entre high et max, permettant un réglage plus fin entre capacité de raisonnement et latence
- Dans Claude Code, le niveau Effort par défaut passe à xhigh
Claude Platform(API)
- Avec le support des images haute résolution, la fonction Task Budget est proposée en bêta publique, permettant d’ajuster les priorités d’usage des tokens sur les tâches de longue durée
Claude Code
- La nouvelle commande /ultrareview permet de lancer des sessions de revue des changements de code et de détection de bugs
- Les utilisateurs Pro et Max bénéficient de 3 ultrareview gratuits
- Le mode Auto est étendu aux utilisateurs Max afin de réduire les étapes d’approbation sur les tâches longues et de permettre une exécution sans interruption

Migration d’Opus 4.6 vers 4.7

Opus 4.7 peut faire l’objet d’une mise à niveau directe, mais il faut prêter attention aux variations d’usage des tokens
- En raison du nouveau tokenizer, une même entrée peut être convertie en environ 1,0 à 1,35 fois plus de tokens
- À des niveaux Effort élevés, le modèle effectue davantage de raisonnement, ce qui peut augmenter le nombre de tokens en sortie
L’usage des tokens peut être contrôlé grâce au paramètre Effort, à Task Budget et à une conception de prompts concise
Les tests internes ont confirmé une amélioration de l’efficacité à tous les niveaux Effort
Les méthodes détaillées de mise à niveau sont fournies dans le Migration Guide

Claude Opus 4.7

Présentation de Claude Opus 4.7

Mesures liées à la cybersécurité

Principales performances et retours utilisateurs

Principales améliorations observées lors des premiers tests

Précision dans l’interprétation des instructions

Renforcement du support multimodal

Performances en situation réelle

Utilisation de la mémoire

Évaluation de la sécurité et de l’alignement

Fonctions supplémentaires lancées

Renforcement du contrôle Effort

Claude Platform(API)

Claude Code

Migration d’Opus 4.6 vers 4.7

À lire aussi

Aucun commentaire pour le moment.