- Anthropic a lancé ses modèles de 5e génération pour des tâches longues et asynchrones sur plusieurs jours. Fable 5 est une version du modèle de niveau Mythos rendue sûre pour les utilisateurs grand public, et Mythos 5 est une version du même modèle avec certaines protections assouplies
- Le niveau Mythos est un nouveau palier de modèles au-dessus du niveau Opus. Le premier modèle, Mythos Preview, a été présenté en avril sous le nom de Project Glasswing, et il est aujourd’hui suivi par Fable 5 et Mythos 5
- Origine des noms : Fable vient du latin fabula (« ce qui est raconté ») et est apparenté au grec mythos. Ce qui distingue les deux modèles, ce sont les protections elles-mêmes, d’où leurs noms différents
- Le prix est de 10 $ par million de tokens en entrée et 50 $ en sortie, soit moins de la moitié du prix de Mythos Preview. Le nom du modèle API est
claude-fable-5
Performances
- Le message clé est que l’avantage augmente à mesure que les tâches deviennent longues et complexes
- Codage : dans des tests préalables de Stripe, il a réalisé en une journée la migration complète d’une base de code Ruby de 50 millions de lignes (plus de deux mois de travail manuel pour une équipe). Il a écrit lui-même les tests et a vérifié le résultat par vision en le comparant au design d’origine. Dans l’évaluation FrontierCode de Cognition, il obtient le meilleur score parmi les modèles frontier même en niveau d’effort medium
- Agents : dans des environnements comme Claude Code, il peut fonctionner de façon autonome pendant plusieurs jours, en planifiant, en déléguant à des sous-agents et en s’auto-vérifiant
- Vision : reconstruction du code source d’une web app à partir de simples captures d’écran, et réussite complète de Pokémon FireRed avec un harnais minimal dédié à la vision (les modèles précédents nécessitaient un harnais auxiliaire complexe)
- Mémoire : dans Slay the Spire, avec une mémoire persistante basée sur des fichiers, les performances sont multipliées par 3 par rapport à Opus 4.8, et la fréquence d’accès à l’acte final triple également
- Travail de la connaissance : meilleur score de tous les modèles sur le benchmark financier d’Hebbia, et réussite sur presque tous les domaines de l’évaluation d’analyse de trading d’IMC
Benchmarks
- SWE-Bench Pro 80,3 % (Opus 4.8 à 69,2 %, GPT 5.5 à 58,6 %), GDPval-AA 1932, OSWorld 85,0 %, avec une revendication de supériorité globale en codage, travail de la connaissance, vision et computer use
- Attention : certaines valeurs du tableau correspondent au meilleur score entre Mythos 5 et Fable 5, et les éléments marqués d’un astérisque (biologie, cybersécurité, etc.) sont accompagnés d’une note indiquant des performances proches d’Opus 4.8 en raison du fallback des protections
Résultats scientifiques de Mythos 5
- Accélération d’environ 10× du processus de conception de protéines, avec obtention de candidats prometteurs sur 9 cibles sur 14. Il a géré sans assistance humaine la sélection des sites de liaison, l’exécution des outils et la récupération après échec
- En comparaison en aveugle, les scientifiques ont préféré dans environ 80 % des cas ses hypothèses de biologie moléculaire. L’une d’elles (un nouveau mécanisme dans une protéine d’E. coli) a été confirmée indépendamment par un laboratoire qui étudiait le même problème
- Grâce à plus d’une semaine de travail autonome, il a rassemblé des données de millions de cellules provenant de 138 espèces animales, puis conçu et entraîné un modèle de ML sur mesure qui dépasse le dernier modèle publié dans Science avec une taille 100 fois plus petite
- Évaluation d’alignement : le niveau de comportement désaligné de Mythos 5 est rapporté comme faible et comparable à celui d’Opus 4.8
Protections
- Le classificateur bloque trois domaines : la cybersécurité, la biologie et la chimie, et la distillation (tentatives d’extraction de capacités pour entraîner des modèles concurrents d’États autoritaires). Les requêtes concernées sont automatiquement redirigées vers Opus 4.8 avec notification à l’utilisateur (aucune facturation Fable en cas de redirection)
- Plus de 95 % des sessions n’ont pas de fallback, et les protections s’activent sur moins de 5 % des sessions en moyenne. Anthropic reconnaît toutefois un réglage conservateur qui peut parfois bloquer des requêtes inoffensives, et prévoit de réduire ces faux positifs
- Après plus de 1 000 heures de bug bounty externe, aucun jailbreak universel n’a été trouvé. Le UK AISI a toutefois obtenu des avancées proches lors de tests initiaux courts. Lors d’un test externe, 30 techniques publiques de jailbreak n’ont produit aucune réponse à des requêtes nuisibles en un seul tour liées à des cyberattaques
- Dans l’évaluation de conception d’AAV (vecteurs de thérapie génique), le niveau Mythos dépasse un modèle de langage protéique spécialisé uniquement grâce à son raisonnement biologique. Cela est présenté comme un élément à l’appui du risque de double usage
- Une conservation des données pendant 30 jours à des fins de surveillance de sécurité est obligatoire. Elle s’applique à tout le trafic 1st party et 3rd party, n’est pas utilisée pour l’entraînement du modèle ni à d’autres fins que la sécurité, journalise les accès humains et supprime les données après 30 jours
Prix et lancement
- Disponible sur les offres Enterprise (à l’usage), Claude Platform, AWS, GCP et Microsoft Foundry
- Déploiement progressif pour les offres par abonnement : inclus gratuitement du 9 au 22 juin pour Pro, Max, Team et Enterprise à la place. Retiré à partir du 23 juin, avec nécessité d’utiliser des crédits d’usage. Retour prévu dans l’offre de base lorsque la capacité sera disponible. L’API et l’Enterprise à l’usage sont pleinement disponibles dès aujourd’hui
- Dès aujourd’hui, les utilisateurs existants de Mythos Preview (partenaires Glasswing, etc.) peuvent passer à Mythos 5. Dans la plupart des cas, il est similaire ou légèrement plus performant que Preview tout en étant nettement moins cher. Anthropic revendique les meilleures capacités de cybersécurité au monde
- Un trusted access program dédié à la biologie doit aussi être lancé séparément (seules les protections biologie et chimie sont désactivées dans Fable 5, les protections cyber étant maintenues)
Aucun commentaire pour le moment.