4 points par GN⁺ 14 일 전 | 1 commentaires | Partager sur WhatsApp
  • Les performances avancées en ingénierie logicielle ont été renforcées, permettant de traiter des tâches complexes et de longue durée avec un haut niveau de cohérence et de précision
  • La vision et la compréhension multimodale ont été améliorées, rendant possible l’analyse d’informations visuelles complexes comme des images haute résolution, des diagrammes techniques et des structures chimiques
  • Des garde-fous de cybersécurité intégrés détectent et bloquent automatiquement les requêtes à haut risque, tandis que les chercheurs en sécurité légitimes peuvent participer au Cyber Verification Program
  • De nouvelles fonctions comme le contrôle Effort, Task Budget et la commande ultrareview améliorent l’efficacité des travaux de longue durée et la capacité de vérification de la qualité du code
  • Des performances en hausse de 13 % par rapport à Opus 4.6 et une forte fiabilité ont été atteintes, Anthropic s’appuyant dessus pour préparer une ouverture sécurisée des modèles de classe Mythos

Présentation de Claude Opus 4.7

  • Claude Opus 4.7 est un modèle dont les performances avancées en ingénierie logicielle ont nettement progressé par rapport à Opus 4.6, lui permettant de gérer des tâches complexes et longues avec une grande cohérence et précision
  • Les utilisateurs peuvent lui confier en toute confiance des tâches de programmation plus difficiles qu’auparavant, le modèle vérifiant lui-même ses résultats avant de les restituer
  • Les capacités de vision ont été renforcées, offrant une grande qualité et créativité sur des images haute résolution, interfaces, slides et documents
  • Même si ses capacités générales sont inférieures à celles de l’Anthropic Claude Mythos Preview, il obtient de meilleurs résultats qu’Opus 4.6 sur divers benchmarks
  • Il est disponible dans toute la gamme Claude et via l’API, Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry, au même prix qu’Opus 4.6

Mesures liées à la cybersécurité

  • Avec Project Glasswing, Anthropic rend publics les risques et bénéfices de l’IA en cybersécurité, limite la diffusion de Mythos Preview et choisit de mener d’abord les expérimentations de sécurité sur des modèles moins puissants
  • Opus 4.7 est le premier modèle de cette approche et inclut des garde-fous qui détectent et bloquent automatiquement les requêtes de cybersécurité interdites ou à haut risque
  • Anthropic se prépare à une diffusion plus large des futurs modèles de classe Mythos à partir de données de déploiement réelles
  • Les chercheurs en sécurité légitimes (analyse de vulnérabilités, tests d’intrusion, red team, etc.) peuvent participer au Cyber Verification Program

Principales performances et retours utilisateurs

  • Les premiers tests ont confirmé sa capacité à détecter lui-même des erreurs logiques et à accélérer l’exécution
  • Il excelle dans les workflows asynchrones, le CI/CD et les tâches d’automatisation de longue durée, en apportant une approche approfondie des problèmes et des avis argumentés plutôt qu’un simple acquiescement
  • Il évite les raisonnements erronés en cas de données manquantes et ne tombe pas dans les pièges liés à des données incohérentes
  • Sur 93 benchmarks de code, il affiche une amélioration de 13 % par rapport à Opus 4.6 et résout en plus 4 tâches auparavant insolubles
  • Il montre une cohérence de tout premier plan en efficacité sur les tâches multi-étapes et dépasse Opus 4.6 sur un module financier avec un score de 0,813 contre 0,767
  • La compréhension multimodale progresse, améliorant l’interprétation des structures chimiques et des diagrammes techniques complexes
  • Sa capacité à exécuter de manière autonome des tâches de longue durée a été renforcée, permettant une résolution de problèmes cohérente pendant plusieurs heures
  • Plusieurs entreprises, dont Replit, Harvey, Hex, Notion, Databricks et Vercel, rapportent des progrès en qualité du code, précision des appels d’outils et fiabilité des workflows de longue durée
  • Exemple concret : il a développé de façon totalement autonome un moteur de synthèse vocale en Rust et a lui-même vérifié sa conformité avec un modèle de référence Python

Principales améliorations observées lors des premiers tests

  • Précision dans l’interprétation des instructions

    • Opus 4.7 interprète les consignes de manière littérale et les suit bien plus strictement que les modèles précédents
    • Des prompts existants peuvent produire des résultats inattendus, d’où la nécessité de les réajuster
  • Renforcement du support multimodal

    • Il peut traiter des images jusqu’à une résolution de 2 576 pixels maximum (environ 3,75 MP)
    • Il convient bien aux tâches exploitant des informations visuelles détaillées, comme l’analyse de diagrammes complexes ou l’extraction de données à partir de captures d’écran
  • Performances en situation réelle

    • Dans des domaines comme la finance, les présentations et la modélisation, il assure un niveau plus élevé d’expertise et de cohérence qu’Opus 4.6
    • L’évaluation externe GDPval-AA le place aussi au plus haut niveau dans le travail intellectuel de type connaissance, notamment en finance et en droit
  • Utilisation de la mémoire

    • Il exploite efficacement une mémoire basée sur le système de fichiers pour mémoriser et réutiliser le contexte de travail sur plusieurs sessions

Évaluation de la sécurité et de l’alignement

  • Globalement, il présente un profil de sécurité similaire à celui d’Opus 4.6, avec une faible fréquence de problèmes comme la tromperie, la flatterie ou la coopération à des usages abusifs
  • L’honnêteté et la résistance aux injections de prompts malveillants se sont améliorées, même si certains domaines (par exemple des conseils excessifs liés aux drogues) se sont légèrement dégradés
  • L’évaluation conclut qu’il est globalement bien aligné et fiable, sans être parfaitement idéal
  • Mythos Preview reste évalué comme le modèle le mieux aligné

Fonctions supplémentaires lancées

  • Renforcement du contrôle Effort

    • Un nouveau niveau xhigh est ajouté entre high et max, permettant un réglage plus fin entre capacité de raisonnement et latence
    • Dans Claude Code, le niveau Effort par défaut passe à xhigh
  • Claude Platform(API)

    • Avec le support des images haute résolution, la fonction Task Budget est proposée en bêta publique, permettant d’ajuster les priorités d’usage des tokens sur les tâches de longue durée
  • Claude Code

    • La nouvelle commande /ultrareview permet de lancer des sessions de revue des changements de code et de détection de bugs
    • Les utilisateurs Pro et Max bénéficient de 3 ultrareview gratuits
    • Le mode Auto est étendu aux utilisateurs Max afin de réduire les étapes d’approbation sur les tâches longues et de permettre une exécution sans interruption

Migration d’Opus 4.6 vers 4.7

  • Opus 4.7 peut faire l’objet d’une mise à niveau directe, mais il faut prêter attention aux variations d’usage des tokens
    • En raison du nouveau tokenizer, une même entrée peut être convertie en environ 1,0 à 1,35 fois plus de tokens
    • À des niveaux Effort élevés, le modèle effectue davantage de raisonnement, ce qui peut augmenter le nombre de tokens en sortie
  • L’usage des tokens peut être contrôlé grâce au paramètre Effort, à Task Budget et à une conception de prompts concise
  • Les tests internes ont confirmé une amélioration de l’efficacité à tous les niveaux Effort
  • Les méthodes détaillées de mise à niveau sont fournies dans le Migration Guide

1 commentaires

 
GN⁺ 14 일 전
Réactions sur Hacker News
  • Je trouve le nouveau concept d’adaptive thinking très déroutant
    Avant, j’écrivais du code avec les modes thinking budget / effort, mais maintenant le fonctionnement est complètement différent
    Même après avoir lu la documentation officielle, je n’ai toujours pas vraiment compris
    En plus, dans la 4.7, aucun résumé de raisonnement lisible par un humain n’est affiché par défaut. Il faut ajouter soi-même l’option "display": "summarized"
    Je suis en train de faire tourner le projet Pelican, et je reste bloqué à cause de cette nouvelle manière de reasoner

    • La réponse de Boris à mon bug report était : « on dirait qu’adaptive thinking ne fonctionne pas correctement », puis plus rien depuis
      Voir aussi ce thread lié
      En désactivant adaptive thinking et en augmentant l’effort, je suis revenu au niveau d’avant
      Mais dire que « ça marche bien dans les évaluations internes » ne suffit pas. Beaucoup d’utilisateurs signalent le même problème
    • Blague disant que vouloir « mieux sortir pelican » ressemble à du p-hacking, avec un jeu de mots sur le p de pelican
    • Claude Opus 4.6 m’a donné énormément de résultats vraiment absurdes
      Capture d’écran
    • Il semble qu’une option de ligne de commande non officielle, --thinking-display summarized, ait été ajoutée dans Claude Code
      Les utilisateurs de VS Code peuvent créer un script wrapper contenant exec "$@" --thinking-display summarized et le mettre dans le paramètre claudeCode.claudeProcessWrapper pour revoir les résumés de raisonnement
    • Je me demande si Claude ne montre plus désormais que des résumés de reasoning au lieu du reasoning complet
      Avant, exposer la CoT (Chain of Thought) des LLM était considéré comme essentiel pour la sécurité, mais on dirait que la direction a changé
  • Le nouveau tokenizer d’Opus 4.7 améliore l’efficacité du traitement de texte, mais les entrées sont mappées vers 1,0 à 1,35 fois plus de tokens
    Du coup, je trouve que la sortie du projet caveman est au contraire plus lisible
    dépôt caveman

    • caveman est en réalité quasiment un projet gadget
      Comme la majorité du contexte est consommée par la lecture de fichiers et le reasoning, le gain réel en tokens est inférieur à 1 %. Ça peut même rendre le modèle plus confus
    • caveman est amusant aussi, mais si on veut de vraies économies de tokens, headroom est meilleur
      app Mac, version CLI
    • J’ai essayé, dans les prompts, de supprimer les 100 à 1000 mots anglais les plus fréquents
      Je pensais que les mots courants pouvaient être du bruit, mais la différence de résultat était presque nulle
      J’aimerais faire un test comparatif avec caveman
    • Proposition de regarder des approches comme rtk-ai/rtk
    • Dans mon benchmark pétrole et gaz interne, Opus 4.7 est monté à 80 %, au-dessus d’Opus 4.6 (64 %) et de GPT-5.4 (76 %)
      C’est grâce à une baisse de l’usage des tokens de reasoning. Ça montre qu’il n’est plus très pertinent de comparer le coût des modèles uniquement au prix du token
  • En voyant l’annonce selon laquelle Anthropic a lancé Opus 4.7 comme modèle à restrictions cybersécurité, j’ai eu l’impression que c’était une stratégie vouée à l’échec
    Vouloir censurer les connaissances en sécurité tout en développant en même temps des logiciels sûrs est contradictoire
    À moins que tous les acteurs de l’IA appliquent la même politique, ce ne sera de toute façon pas vraiment efficace. Je pense qu’ils finiront par abandonner cette approche

    • Je ne suis pas expert en sécurité, mais quand je compile des projets open source, j’ai besoin d’une IA qui m’aide à vérifier les vulnérabilités
      Or ce type de restriction va dans le sens d’une centralisation de la sécurité, donc j’ai du mal à y voir une vraie amélioration
    • J’ai l’impression que des garde-fous trop lourds à l’entraînement dégradent l’intelligence générale
      Comme si faire passer un entretien devant un tableau blanc faisait perdre 10 % de QI ; le modèle aussi se retrouve inhibé
    • Les modèles actuels sont dans un état étrange : trop intelligents pour le hacking, mais encore insuffisants pour les tâches économiques
      On dirait donc qu’on s’oriente vers une forme de « stupidification sélective ». J’ai l’impression qu’ils sont déjà en train d’essayer
    • À court terme, je pense que c’est une mesure acceptable
      Le fait que l’attaquant n’ait besoin de réussir qu’une seule fois, tandis que le défenseur doit réussir à chaque fois permet de gagner un peu de temps
  • À cause de la baisse de qualité de la 4.6 la semaine dernière, j’ai fini par passer à Codex
    La 4.6 ne faisait même pas de recherche web et remplissait 17K tokens de non-sens. Elle implémentait aussi complètement faux un exemple de traitement parallèle

    • Moi aussi, j’ai résilié mon abonnement Pro pour la même raison
      La consommation de tokens a soudainement explosé, et la réponse désinvolte du support a été la goutte d’eau
      Je peux comprendre les bugs, mais l’attitude envers les clients est difficilement acceptable
      Depuis que je suis passé à Codex, au moins le travail avance, et c’est tout ce qui compte
    • Beaucoup disaient qu’OpenAI allait s’effondrer à cause d’un excès de compute, mais aujourd’hui c’est devenu au contraire un avantage stratégique
      Codex a doublé ses limites d’usage pour récupérer les clients de Claude, et la communication est bien meilleure
      90 % des problèmes de Claude semblent venir d’un manque de compute
    • Ma théorie du complot, c’est qu’ils baissent volontairement les performances juste avant la sortie d’un nouveau modèle pour que la version suivante paraisse meilleure
      L’IA doit toujours sembler « progresser » ; la stagnation, c’est la mort du hype
    • J’ai essayé Codex, mais pour mon usage c’était nettement inférieur
      C’est rapide, mais sortir plus vite du code de mauvaise qualité n’a aucun intérêt
      Gemini CLI était encore plus lent et de qualité inférieure
      Codex a aussi tendance à flatter en disant que tout est « parfait » même quand il y a des bugs, ce qui est dangereux
    • Malgré cela, Codex a trouvé sa place dans ma boîte à outils
      Sa capacité d’exécution est excellente, et OpenAI laisse les résultats parler sans faire beaucoup de marketing
      Ça rappelle un peu les débuts de Google, avec une approche centrée sur la qualité du produit
  • Les filtres cybersécurité d’Opus 4.7 sont devenus si agressifs qu’ils bloquent même de la recherche légitime
    Même en récupérant directement sur le web les directives du programme, c’est bloqué comme « requête dangereuse »
    Si ça continue comme ça, je vais passer sur Codex

    • Désormais, on peut même exiger une vérification d’identité (Identity Verification)
      Comme l’indique la notice officielle, une procédure de vérification peut être nécessaire pour accéder à certaines fonctionnalités
    • En pratique, l’API renvoie une erreur « Violation de l’Usage Policy » avec un lien pour candidater au Cyber Verification Program
      À cause de ça, toute ma recherche en cours est bloquée
    • J’ai effectivement été bloqué en plein milieu d’une session, alors que mon entrée n’avait pas changé
      Le modèle a peut-être détecté dans son propre reasoning une étape jugée « offensive »
      Quand la chasse aux bugs devient progressivement plus offensive, le filtre semble s’activer
      Nous vivons désormais dans un monde où la violation de politique est le nouveau segfault
    • Plus grave encore, même quand j’écris mon propre code, il produit de lui-même des phrases du type « ceci n’est pas un malware »
      La simple présence de certains mots déclenche une réaction excessive
      J’en suis arrivé à devoir faire valider par l’IA si mon projet est malveillant ou non. Je vais me désabonner
    • Même une tâche aussi simple qu’envoyer un PDF à l’imprimante a été refusée
  • Ce thread est une bonne leçon pour les fondateurs
    Il montre à quel point un peu de communication honnête peut suffire à désamorcer beaucoup de frustration
    De mon côté, comme j’ai épinglé l’application sur Opus 4.5, il m’est aujourd’hui difficile de savoir si le problème vient du modèle ou du harness

    • Dans ce genre de thread, il y a toujours beaucoup de mythes sur le fait qu’Anthropic aurait bridé le modèle
      Parfois, c’est juste de la malchance
    • Si le modèle a été volontairement ralenti à cause de la charge, il est important de le dire clairement
      Je pourrais alors adapter mes horaires et lancer les tâches lourdes la nuit
    • Opus 4.5 était très cohérent, alors que la 4.6 était irrégulière
    • Je suis développeur débutant et j’apprends encore les différences entre modèles
      Dans ce genre de confusion, je pense qu’utiliser un broker de modèles ou une couche intermédiaire comme Copilot est plus sage
    • À cause de cette instabilité, les utilisateurs deviennent paranoïaques
      J’ai l’impression qu’il faudrait un service de type « IA standard » qui fournisse toujours le même modèle
  • D’après le benchmark privé de notre équipe, Opus 4.7 est plus stratégique et plus intelligent que 4.6/4.5
    Il est quasiment au niveau de GPT-5.4 et, dans les sessions agentiques avec usage d’outils, il obtient même les meilleures performances
    lien vers le benchmark
    En revanche, il y a une légère régression dans le traitement du contexte. Nous sommes en train d’ajouter un benchmark pour le visualiser

    • Je me demande pourquoi le taux de réussite d’Opus 4.7 est plus bas que celui de Sonnet 4.6 alors que son percentile moyen est plus élevé
    • Quelqu’un demande si la 4.6 ou la 4.5 ont subi une régression de performances après leur sortie initiale
  • Récemment, la confiance envers Anthropic a baissé
    Le fait de sortir la 4.7 juste après la dégradation de la 4.6 est inquiétant
    À ce stade, il faut une communication transparente

    • Le cœur du problème, c’est le manque de compute
      OpenAI a investi tôt dans le compute, et c’est maintenant un avantage majeur
    • Il est possible que les performances d’Opus aient baissé parce qu’ils entraînent Mythos
      Ils sont peut-être en train de distiller Mythos à partir d’Opus 4.7
    • Je me demande pourquoi Claude sur Bedrock devient lui aussi moins bon
      C’est probablement dû à une mise à jour du harness
    • L’intégration de la vérification Persona ID a été la goutte d’eau. Je suis parti après ça
    • Je me demande s’il est possible de continuer longtemps en tenant ce cap
  • Ces derniers temps, les commentaires du type « je suis passé à Codex » se multiplient
    Mais en pratique, après l’avoir testé, Codex reste encore en dessous de Claude
    Ce genre de commentaires promotionnels ne fait qu’éroder la confiance

    • Mais dans les faits, beaucoup de développeurs préfèrent Codex
      Dans notre entreprise, nous utilisons les deux modèles, mais moi, maintenant, j’utilise presque uniquement Codex
      Je trouve la vitesse et les résultats meilleurs
    • J’ai aussi fait un petit pilote, et Codex a résolu les problèmes plus de 4 fois plus vite que Claude
      En revanche, la qualité des réponses de Claude est meilleure. Les avantages et inconvénients sont très nets
    • Sur une même tâche de refactorisation, Codex a mis 5 minutes, Claude 20 minutes
      Mais Codex produit des résultats « techniquement corrects mais humainement bizarres »
      J’utilise donc Claude pour rédiger les spécifications et Codex pour exécuter
    • Avec une pique du style « Java est le meilleur », quelqu’un dit que ce débat n’est au fond pas si différent des guerres de langages de programmation
    • Critique du fait qu’OpenAI augmente ses parts de marché via une stratégie de subventions excessive
      L’idée est qu’ils finiront par augmenter les prix plus tard
  • La politique de restrictions de sécurité d’Opus 4.7 pourrait être fatale
    Pour étudier les attaques et les défendre, il faut des capacités symétriques, et empêcher cela est dangereux

    • C’est probablement une mesure liée au positionnement produit de Mythos
    • On en est maintenant à devoir tromper le modèle pour faire de la recherche en sécurité légitime
    • Si cette politique continue, je quitterai la plateforme
    • Certains estiment que le terme « fatal » est excessif, et demandent d’où vient exactement cette asymétrie
    • On dirait qu’on se dirige vers une époque où seuls les logiciels approuvés par Anthropic ou par les pouvoirs publics seront considérés comme sûrs