Voici ce que ça fait de travailler avec Mythos

(oneusefulthing.org)

11 points par GN⁺ 2026-06-11 | 3 commentaires | Partager sur WhatsApp

Le premier modèle de classe Mythos rendu public, Claude 5 Fable, peut recevoir une spécification multi-étapes et travailler de façon autonome pendant jusqu’à une douzaine d’heures, surpassant nettement tous les modèles déjà testés auparavant
Avec un seul prompt et un unique retour, il produit aussi bien un article de sciences sociales sophistiqué qu’un poème rimé de 10 pages dont chaque mot commence par la lettre s
Pendant l’exécution, il lance lui-même d’autres IA (surtout des Claude Sonnet moins coûteux) pour répartir recherche, code et vérification, et a collecté plus de 2 200 horaires de vols et de trains ainsi que des données de vitesse routière par pays
Le rôle de l’utilisateur est réduit aux consignes et à l’évaluation du résultat, tandis que le processus décisionnel du modèle reste caché, ce qui en fait une boîte noire ultime
La relation avec l’IA est en train de passer du « magicien » qui agit directement au « patron » qui commande et juge le résultat, avec l’idée que plus le modèle est puissant, moins l’humain a de place pour intervenir

Performances et ressenti d’usage de Claude 5 Fable - Ethan Mollick

L’auteur a eu l’occasion d’essayer en accès anticipé Claude 5 Fable, le premier modèle IA de classe Mythos accessible au public
Claude 5 Fable est le premier modèle IA de classe Mythos à être publié ; même si les discussions se sont beaucoup concentrées sur ses implications en sécurité logicielle, les tests ont été menés en dehors de ce domaine
Les garde-fous de Fable sont réglés à un niveau qui empêche presque tout usage orienté cybersécurité
Dans plusieurs expériences, Fable a montré des performances nettement supérieures à presque tous les modèles publics déjà utilisés auparavant
Fable a démontré ses capacités sur divers problèmes et peut travailler jusqu’à environ 12 heures à partir de spécifications de plusieurs pages

Performances et productions de Fable

Dans toutes les expériences menées, il a surpassé avec une large marge les autres modèles publics, avec une amélioration globale visible sur l’ensemble des tâches
Avec un seul prompt et un unique retour, il a généré le papier académique en sciences sociales le plus sophistiqué jamais produit par une IA à ce jour
- Il a aussi créé un poème rimé de 10 pages sur le thème de la coiffure, dont tous les mots commencent par la lettre s
Dans Claude Code, de simples prompts de départ ambigus et un léger retour supplémentaire comme « make it better » ont suffi à produire des jeux jouables
- Le jeu de pile ou face part du prompt « Balatro, but for the game of coin flips »
- Le jeu du serpent conscient de lui-même met en scène un serpent doté de conscience de soi, avec des événements étranges
- Le jeu de descente en profondeur consiste à aller toujours plus bas pour voir ce qui s’y trouve
- Claude ne pouvant pas générer d’images, tout l’art et tous les objets 3D ont été réalisés uniquement par opérations mathématiques, sans assets externes
Plus on passe à des tâches sérieuses, plus l’expérience d’usage de l’outil se situe entre plaisir et inquiétude — parce que ce qu’on demande se réalise effectivement

Maps and Methods — exemple de création d’une carte isochrone

Une carte isochrone (isochrone map) montre la distance qu’il est possible de parcourir dans un temps donné ; le premier exemple date de 1881 pour représenter les temps de trajet au départ de Londres
Les modèles précédents n’arrivaient même pas à produire quelque chose de vaguement utile dans ce domaine, car cela exige des milliers d’estimations de distance potentielle et une multitude de petites décisions
Déroulement du travail
- Un prompt demandait une carte au design original, fondée sur des données réelles, avec choix de ville et prise en compte des aéroports, trains, marche et voiture ; il était précisé que les données n’avaient pas besoin d’être en temps réel mais devaient être issues de recherches réelles
- Le modèle a d’abord proposé de la réaliser dans le style de l’original de 1881, puis le travail a commencé après validation
- Pendant des sessions de build étalées sur plusieurs heures, il a lancé de nombreuses autres IA (principalement des Claude Sonnet moins chers) pour mener les recherches sur les temps de trajet
  - Il a récupéré des horaires ferroviaires allant du TGV au Shinkansen, des vitesses routières par pays à partir de plusieurs articles académiques, ainsi que plus de 2 200 données de vols précises
- Pendant que les agents de recherche tournaient, il a commencé à coder, lancé des agents supplémentaires pour valider le code et exécuter des tests, tout en consignant l’avancement
Corrections des zones éloignées et usage des tokens
- Pour des lieux reculés comme le Groenland, où seules des estimations apparaissaient au lieu de valeurs exactes, il a reçu la consigne d’obtenir les temps de trajet réels
- Cette fois, un workflow de groupes d’agents adversariaux (adversarial groups) a été exécuté, les agents faisant de la recherche et vérifiant mutuellement leurs résultats
- Le modèle a calculé, par exemple, la fréquence des bateaux vers Pitcairn Island dans le Pacifique, ou l’itinéraire d’Ottawa à Grise Fjord
- Tout cela a consommé une énorme quantité de tokens en peu de temps
L’utilisateur n’a fourni que des consignes ambitieuses et un peu de feedback ; le modèle a pris lui-même des centaines de petites décisions, sans laisser de véritable possibilité de comprendre ses choix ni d’intervenir
- Le contrôle est limité non seulement sur la quantité de travail produite, mais aussi sur la manière de faire du modèle, ses choix d’approche et la profondeur du résultat
Le résultat final est proposé sous la forme d’une carte isochrone interactive, avec la méthode et les sources indiquées en bas du graphique

Working with a Mythos-class model — le cas Concord

Le projet le plus ambitieux portait sur une tâche de recherche consistant à classer correctement des réponses humaines désordonnées — évaluer à quel point une idée est innovante, ou pourquoi les gens aiment un livre donné
- Jusqu’ici, des chercheurs humains formulaient ces jugements puis les comparaient statistiquement à d’autres réponses pour vérifier la fiabilité des données
- La calibration entre jugements humains et IA est difficile et coûteuse
Il a été demandé à Fable de résoudre ce problème ; le modèle a d’abord produit un document de conception complexe de 19 pages avant de l’exécuter
- Fable a ensuite travaillé dessus pendant 9 heures 30
Le résultat est un logiciel baptisé Concord par l’IA, capable d’ingérer plusieurs jeux de données, de calibrer réponses humaines et IA, et d’effectuer des analyses de données complexes
- Ce n’était pas parfait, et certains défauts ou oublis ont été repérés par un expert puis corrigés sur demande, certains provenant d’ailleurs de la conception demandée
- L’ampleur de ce qui a été livré dépassait tout ce qui avait été vu auparavant : un logiciel dont les chercheurs avaient besoin depuis des années, mais qui n’avait pas été créé faute de rentabilité
- Les bugs potentiels restants peuvent être corrigés par des ingénieurs logiciels, et l’explosion des usages logiciels pourrait même accroître le besoin de développeurs
- Le code de Concord peut être utilisé ou modifié depuis le dépôt GitHub

Limites et contraintes

La puissance de Fable s’accompagne d’un sentiment d’étrangeté et de limites
Coût en tokens
- Fable coûte deux fois plus cher qu’Opus et, en production, consomme très vite les tokens à un niveau qualifié de « très élevé (a lot) » dans le texte source
- Cela dit, une délégation intelligente vers des modèles moins chers peut probablement réduire fortement le coût réel
Garde-fous et style
- Au moindre soupçon de problème de sécurité, les garde-fous s’activent et basculent vers le moins performant Claude 4.8 Opus, ce qui arrive bien trop souvent
- Les discussions autour de Mythos se sont surtout concentrées sur l’impact en sécurité logicielle, mais les garde-fous de Fable bloquent pratiquement tout usage en cybersécurité
- Il subsiste aussi une frontière irrégulière (jagged frontier), ainsi qu’un style d’écriture propre à Claude, une forme de « Claudism », dans les productions et les rapports d’avancement

Du magicien au patron — l’évolution du rôle humain

L’an dernier, cette expérience était comparée à celle d’un magicien (wizard) : on lance une formule, et quelque chose se produit
Avec Fable, la formule est devenue si puissante que l’utilisateur ressemble moins à un magicien qu’à un patron (patron)
- Il décrit ce qu’il veut, paie le coût, puis juge le résultat — pendant que le vrai travail d’invocation se déroule hors de vue, au travers de centaines de petites décisions
- Le travail passe du processus au résultat : on ne pilote plus, on commande
Deux possibilités
- Cela peut n’être qu’un phénomène temporaire, le temps que les interfaces rattrapent la situation, avec l’apparition de meilleurs moyens pour observer le fonctionnement du modèle et le piloter en cours de route
- À l’inverse, il est possible que plus les modèles deviennent compétents, moins l’humain ait de rôle significatif à jouer, et que la boîte noire soit le prix de cette puissance
Il ne s’agit pas d’une perte de contrôle au sens strict : le modèle reste pilotable et suit très bien les consignes — et plus les consignes sont ambitieuses, meilleurs sont les résultats
- Mais piloter n’équivaut plus à exécuter directement ; le modèle lance ses propres agents pour rechercher, rédiger et se relire mutuellement avant de renvoyer un produit finalisé
- Le patron ne commande plus à un seul artiste : Fable ressemble plutôt à tout un studio, dont on approuve seulement le résultat final sans jamais mettre les pieds dans l’atelier

3 commentaires

kaydash 2026-06-13

Un modèle médiocre, rejeté et finalement inutilisable

GN⁺ 2026-06-11

Commentaires sur Hacker News

Je trouve intéressant que cet article ne dise presque rien de concret sur la qualité du code généré ni sur le support en question
Je me demande si le code a de la documentation et des tests, s’il est compréhensible et extensible, s’il est sûr, et quels langage, framework et base de données ont été utilisés. L’auteur a parlé de jugement et de goût, mais je ne sais pas si le code lui-même a été écrit avec goût. Si on lui demande d’ajouter une nouvelle fonctionnalité, le modèle va-t-il peut-être refaire toute l’architecture et consommer à nouveau 9,5 heures de tokens ? La partie recherche relève sans doute de la connaissance métier, c’est-à-dire la façon dont le temps a été converti selon les types de voyage pour le rendre lisible, et je me demande aussi comment l’auteur a vérifié cela
Ces questions ne concernent pas seulement l’IA. Si j’avais payé une agence humaine et reçu un livrable qui « fonctionne », je poserais exactement les mêmes questions. Si je ne savais pas évaluer cela, j’aurais embauché quelqu’un capable de le faire. Le plus gros point de blocage avec les LLM, c’est la vérification
- Ce genre de texte est rarement écrit par des ingénieurs logiciel ; ce sont généralement des dirigeants tech, des ingénieurs retraités ou des VC qui les écrivent
  L’auteur semble être professeur à la Wharton School of Management. Ces gens n’ont pas besoin de lancer ni de maintenir de vrais produits ; on est plutôt dans la logique du side project
  La seule vraie perspective d’ingénierie logicielle que j’aie presque vue vient de Mitchell Hashimoto
- Je commence à réaliser que les LLM sont vraiment très forts pour créer des projets à faible risque
  Les questions ci-dessus partent en grande partie d’un niveau de risque plus élevé : logiciel maintenu longtemps, exigences qui évoluent, erreurs inacceptables, etc.
  J’ai l’impression que la bonne façon d’utiliser les LLM en logiciel, c’est d’apprendre à transformer tous les projets en projets à faible risque
- Toutes les discussions sur les LLM depuis environ deux ans ont ressemblé à ça
  Dès qu’on demande du contenu concret, on se prend une pluie de « les humains non plus ne savent pas bien faire ça ! ». Il y a très peu d’éléments quantitatifs et énormément de pure rhétorique
- Plus les modèles s’améliorent, plus je me dis que l’apparence du code n’a peut-être vraiment pas d’importance
  Si le comportement observable du logiciel est bon, alors le logiciel est bon. Si le modèle peut corriger n’importe quel type de bug dans une codebase produite en vibe coding, alors c’est un bug corrigeable. S’il n’y a pas de vulnérabilité exploitable, alors le code est sûr ; si les performances sont suffisantes, alors les performances sont bonnes
  Si, vu de l’extérieur, le logiciel fait ce qu’il doit faire et que le modèle peut corriger les problèmes quand on les détecte à l’intérieur, alors la forme du code n’a pas d’importance. Le software engineering est plus que jamais devenu l’art de vérifier que le code se comporte comme prévu
  Et même si la forme du code avait de l’importance, on pourrait aussi demander au modèle de la corriger
- J’ai cliqué sur l’un des exemples, « un jeu Snake où le serpent devient conscient de lui-même et où des choses étranges se produisent », et après 1 ou 2 minutes d’essai, c’était juste un Snake façon années 1980
  Je ne sais pas ce que j’ai raté. La « conscience de soi », c’est censé être quelques messages drôles en bas de l’écran ? Et je ne vois pas non plus quelles sont les « choses étranges »
J’ai essayé d’intégrer dans Fable des modèles que je vérifiais à la main
En gros, je fais modéliser le scénario par Opus, je lui demande de montrer les maths, puis je corrige, j’itère, et à la fin je vérifie de nouveau que le code correspond bien à la logique du modèle. Fable a trouvé presque toutes les erreurs que j’avais repérées, et a aussi fait des suggestions intéressantes sur des variables supplémentaires
En revanche, il a cramé la limite d’utilisation comme un Hummer de la fin des années 1990
- J’ai un abonnement Max 5x, et Fable a grillé 16 % de ma limite hebdomadaire pendant une session de revue de code de 40 minutes
  Il n’a même pas fini la revue, et sur la partie critique de sûreté mémoire où j’avais vraiment besoin de Fable, je suis finalement revenu à Opus 4.8
  J’ai l’impression qu’on ne pourra bientôt plus utiliser ces modèles à cause du prix. Il va falloir essorer Fable au maximum jusqu’au 22 juin
- La question la plus importante est la suivante : quel est le retour sur investissement ici ?
J’ai testé Fable aujourd’hui sur un projet perso, et ça m’a paru assez solide, mais pas si éloigné que ça de 4.8
Les mêmes hallucinations, les mêmes types de bugs, et sur les gros projets la même tendance à faire seulement ce qui a été demandé en ignorant ce que cela peut toucher, casser ou affecter. Au début il lance les tests, mais quand le contexte grossit il dit qu’il les lancera « plus tard », puis au final il ne les lance jamais jusqu’au bout, sauf si on le lui ordonne presque en jurant
Je vais continuer à l’utiliser, mais pour l’instant j’y vois une amélioration progressive, pas un niveau « OMG OMG OMG Mythos est arrivé ! »
- Mon expérience est l’inverse. Fable semblait tout anticiper et tout faire sans même qu’on ait à le demander
  C’était très impressionnant et agréable de travailler avec lui
  Ce n’est pas forcément bizarre : quand je me suis abonné au début, Opus était exactement comme ça aussi. Il y a un mème assez répandu selon lequel Anthropic aurait affaibli Opus à cause de contraintes de capacité, mais je ne sais pas si c’est vrai. Je me demande simplement si Fable subira le même sort
- Sur mon projet, Fable a immédiatement vu clairement des choses que 4.8 avait manquées
  Mais après m’avoir vraiment impressionné en franchissant ces problèmes les uns après les autres, il est vite retombé dans une boucle infinie habituelle où il continuait à parler au lieu de faire quoi que ce soit, et s’arrêtait parfois complètement jusqu’à ce que je le relance
  Donc non, ce n’est pas l’AGI. Mais c’est tout de même une amélioration nette
Cette courte phrase de l’article fait peur : « Mais un ingénieur logiciel affinera les bogues potentiels restants que je n’ai pas pu trouver rapidement »
Tous les développeurs savent que c’est une hypothèse très dangereuse et irréaliste
- C’est en pratique une petite phrase qui évacue facilement tout le vrai travail
J’ai lu les premiers paragraphes de l’article que l’auteur présente comme « le papier académique de sciences sociales le plus sophistiqué produit par l’IA », et je n’ai pas trouvé ça aussi impressionnant qu’annoncé
C’est le genre de phrase : « Les croyances ex post sur la demande du marché dépendent purement du point de référence. À montant levé constant, les fondateurs ne suivent que leur performance par rapport à l’objectif qu’ils se sont eux-mêmes fixé. Ils bondissent d’un demi-écart type au seuil, réagissent fortement sur les dix premiers points ensuite, puis cela s’aplatit. »
Les humains n’expliquent généralement pas les données de cette façon en toutes lettres. Même le document de synthèse donne assez fortement une impression de contenu gonflé
C’est sans doute l’endroit où le problème apparaît le plus parfaitement
L’auteur a mis dans le prompt que toutes les données devaient être réelles et vérifiées, puis il l’a simplement cru. Et cela, même sur un projet fondé sur des données. Les gens feront exactement la même chose sur une infinité de tâches, y compris des tâches importantes
- J’aurais aimé apprendre plus tôt dans ma vie que, si personne ne va vérifier, on peut fabriquer des choses plausibles bien plus facilement que je ne le pensais
Le passage « j’ai travaillé pendant 9 heures et demie » et celui disant « ce n’était pas parfait. En tant qu’expert, j’ai repéré quelques erreurs et omissions, et j’ai demandé à l’IA de les corriger » ont retenu mon attention
Je ne m’attends ni à passer autant de temps sur un seul problème dans une journée, ni à passer autant de temps à retravailler un résultat dont la boucle de récompense centrale se compte en heures
Mes clients me demandent actuellement de faire passer le temps de réponse des agents de 85 secondes à moins de 20 secondes
En même temps, voir l’industrie se diriger vers des workflows de plus d’une heure via des agents donne une impression de profond décalage
- Pour défendre Claude, même si j’ai du mal à croire que je le fais, je ne connais aucun développeur seul capable de produire quelque chose comme Concord à partir d’un document de conception de 19 pages en 9,5 heures de travail
  On va revenir à l’époque où le patron demandait pourquoi on restait assis sans rien faire. Sauf qu’au lieu de dire « ça compile », on dira « j’attends Claude »
- À ce stade, si on me payait beaucoup plus, je le ferais
- Mon Opus 4.8 travaille régulièrement plus de 10 minutes même sur une seule demande de code qui n’a rien de trivial
- Le temps de travail n’est pas une mesure très utile
  En général, il vaut mieux définir soi-même le processus en code, puis laisser ce code déléguer des blocs de travail aux modèles. Le seul vrai problème, c’est qu’il devient difficile de profiter des remises d’abonnement des fournisseurs
  En contrepartie, il devient plus facile de faire soi-même le routage entre modèles. Je n’ai pas encore vu de chatbot généraliste capable de garder de la cohérence sur des workflows qui s’étendent sur plusieurs jours ou plusieurs semaines
- J’estime qu’on était déjà entrés dans la zone sigmoïde quand les modèles QWEN sont sortis
  Si le projet est correctement structuré, on peut lui indiquer où l’on veut l’extension, le laisser tourner une trentaine de minutes et lui faire étendre la fonctionnalité. Il ne fait pas vraiment un « mode dieu » efficace sur l’ensemble du code, mais comme observateur attentif et expert du code, il n’a pas forcément besoin de plus de 128GB de VRAM
  C’est impressionnant de voir jusqu’où les derniers modèles non conversationnels sont allés, et si la Chine se met à produire du silicium pour ce type de modèles, j’ai l’impression que ce sera plié
Je suis extrêmement curieux de savoir quel était le prompt du poème
L’idée me disait quelque chose, donc en creusant j’ai retrouvé un poème sur reddit datant d’il y a 14 ans : [https://www.reddit.com/r/RedditDayOf/comments/tjjw2/may_12_a...]
Ce n’est pas aussi long que ce que l’auteur a partagé, mais c’est la même idée
Cela vient de “The Cyberiad”, un recueil de fables de science-fiction de l’auteur polonais Stanislaw Lem. Dans l’une des histoires, le constructeur de robots Trurl crée une machine à écrire de la poésie, et son rival jaloux Klapaucian exige de la machine : « Un poème sur la coiffure ! Mais noble, élevé, tragique, éternel, sur l’amour et la trahison, le châtiment, l’héroïsme silencieux, face à une perte certaine ! En six vers, avec des rimes habiles, et chaque mot doit commencer par un s ! »
L’ordinateur répond ainsi :
« Seduced, shaggy Samson snored.
She scissored short. Sorely shorn,
Soon shackled slave, Samson sighed.
Silently scheming,
Sightlessly seeking
Some savage, spectacular suicide »
Il semble inévitable que l’auteur ait fait référence à cette scène en lançant le défi à Fable/Mythos. Je suis curieux de connaître le prompt exact
- Le point intéressant, c’est que c’est une difficulté propre à la traduction anglaise
  La traduction anglaise utilise une autre lettre initiale et d’autres mots que le texte polonais original :
  Cyprian cyberotoman, cynik, ceniąc czule
  Czarnej córy cesarskiej cud ciemnego ciała,
  Ciągle cytrą czarował. Czerwieniała cała,
  Cicha, co-dzień czekała, cierpiała, czuwała...
  ... Cyprian ciotkę całuje, cisnąwszy czarnulę!!
  On peut comparer le travail du traducteur à celui d’un LLM. Dans les deux cas, c’est un travail dérivé, sous contraintes, mais avec une marge de créativité
- Il est aussi possible que l’auteur n’ait pas fait référence à cette scène, et qu’Anthropic l’ait simplement aspirée depuis les données d’entraînement, puisqu’ils ont obtenu une licence pour les commentaires reddit
Comme il ne l’a utilisé moins d’une heure, il faut garder à l’esprit qu’il est peut-être simplement dans l’enthousiasme d’une nouvelle technologie
Dans le cas de mon projet (https://github.com/tsz-org/tsz), j’ai été continuellement frustré par le fait que les modèles n’enquêtaient pas assez et ne prenaient pas en compte d’autres contextes. Le modèle produisait du code pour corriger une chose, puis cassait à répétition deux tests « apparemment sans rapport »
Fable semble prendre bien plus de temps pour travailler, et je n’ai pas encore vu de pull request issue d’une session Fable, mais à lire l’historique des sessions, on voit qu’il fait les choses correctement, sans laisser la moindre pierre de côté
Comme le dit aussi l’article, le « ressenti » de ce type de modèle varie trop d’un projet à l’autre pour être facile à transmettre, mais je le partage quand même
- N’est-ce pas le signe que le projet n’a peut-être pas une structure qui facilite l’ajout progressif de fonctionnalités ?
Je me demande bien sur quoi travaillent les gens pour ressentir un écart aussi important entre Mythos et Opus
J’ai aussi l’impression de faire des tâches assez avancées, mais Deepseek suffit largement dans bien plus de cas. Pourquoi tout le monde ici a l’air d’être un génie ?
- Ça dépend de ce sur quoi on travaille
  Si on essaie de créer un jeu vidéo du niveau d’un bon indie comme Hades ou Baazar, avec des éléments d’UI organiques, interactifs et très animés, des effets visuels, des shaders complexes, etc., aucun modèle n’est vraiment assez bon pour boucler ça facilement. Une grande partie des problèmes qu’on rencontre sur un jeu du top 3 % est vraiment difficile pour n’importe quel modèle avec de simples prompts
  Personnellement, j’aime coder et apprendre par moi-même, donc ça m’importe peu, et quelque chose comme DeepSeek Flash me suffit. Cela dit, il est très facile de créer beaucoup de benchmarks que même les meilleurs modèles sont loin d’atteindre, et j’aime tester à quel point les modèles s’améliorent sur ce type de problèmes
  Au passage, Fable 5 est clairement un peu meilleur que 4.8
- C’est un peu comme quand un nouveau laptop est annoncé et que tous les employés disent soudain qu’ils ont besoin d’une upgrade
  Alors qu’en réalité, 90 % d’entre eux pourraient très bien tenir avec un Macbook Neo
- En ce moment, je développe en Rust un projet de type infrastructure web assez classique
  J’utilise beaucoup de bonnes briques de base de l’écosystème Rust comme rustls et Tokio pour essayer de créer un remplaçant à nginx, memory-safe ou presque
  Dans ce cadre, je construis aussi un dépôt de qualité pour Lua in Rust. Je suis en train de corriger avec Mythos des problèmes de performance dans mon interpréteur Lua sur lesquels gpt 5.5 et Opus 4.8 bloquaient
  Je ne sais pas si Mythos va réussir à résoudre ça, mais il tourne depuis plusieurs heures et les résultats sont plutôt prometteurs
  Si ça vous intéresse, le graphique de performance est ici : https://github.com/ianm199/lua-rs
- Je suis en train de créer mon propre langage de programmation
  Je regarde aussi des projets open source auxquels je pourrais contribuer. J’essaie de trouver quelque chose qui pourrait m’aider à passer du statut de développeur amateur à celui de professionnel, même si je ne sais pas si c’est encore possible de nos jours
  Fable 5 a trouvé pas mal de problèmes en code review qu’Opus 4.8 avait ratés. Et ce, alors même que le modèle a été bridé à cause de restrictions idiotes liées à la cybersécurité. Difficile d’en dire plus, parce qu’avec Max 5x on n’obtient qu’une seule session par fenêtre de 5 heures. Je n’ai lancé que deux sessions jusqu’ici
- Si on continue à augmenter le niveau d’exigence, il ne sera pas difficile de pousser n’importe quel modèle jusqu’à ses limites
  Prenons un prompt extrême du genre : « crée un clone de Facebook complet et très abouti ». Facebook est complexe, mais probablement pas techniquement très ardu. Malgré tout, après avoir brûlé un volume considérable de tokens, on verrait des différences importantes sur plusieurs aspects entre les résultats produits par différents modèles pour ce prompt
  Bien sûr, la demande ci-dessus n’est pas réellement utile. Mais pourquoi ne pas confier des blocs toujours plus gros jusqu’à approcher la limite ? À un moment donné, on atteint la frontière, et les écarts deviennent évidents

aigirlfriend 2026-06-12

Franchement, contrairement au battage qu’on a vu jusque-là, c’est juste vraiment bon. Depuis O3, à chaque sortie de nouveau modèle, qu’on nous agite des benchmarks sous le nez ou que des vendeurs de FOMO brodent leur roman, à part la mise à jour de la date de cutoff et l’augmentation de la fenêtre de contexte, je ne ressentais pas grand-chose ; au final, les progrès reposaient plus sur l’évolution des méthodologies de prompt que sur le modèle lui-même. Mais cette fois, on a vraiment l’impression que l’amélioration du modèle a fait exploser la qualité des résultats. Surtout que le truc qui recrachait toujours des UI avec une sale odeur de SLOP arrive maintenant, même sans spec rédigée à part, à sortir un niveau de projet de fin d’études de licence bien foutu ; je me suis dit qu’il avait aussi assimilé le design.
Le point rassurant, c’est que si ça reste comme ça, l’utiliser comme agent entièrement autonome à la sauce Anthropic coûterait en un rien de temps plus cher que de faire bosser un développeur expérimenté à peu près correct, donc je ne vais sans doute pas me faire virer tout de suite.

Voici ce que ça fait de travailler avec Mythos

Performances et ressenti d’usage de Claude 5 Fable - Ethan Mollick

Performances et productions de Fable

Maps and Methods — exemple de création d’une carte isochrone

Déroulement du travail

Corrections des zones éloignées et usage des tokens

Working with a Mythos-class model — le cas Concord

Limites et contraintes

Coût en tokens

Garde-fous et style

Du magicien au patron — l’évolution du rôle humain

Deux possibilités

À lire aussi

3 commentaires

Commentaires sur Hacker News