1 points par GN⁺ 4 시간 전 | 4 commentaires | Partager sur WhatsApp
  • Anthropic a mis à jour les protections de cybersécurité de Fable 5 après des échanges avec le gouvernement américain, et la plupart des tâches de code restent utilisables telles quelles
  • À court terme, les nouvelles protections pourraient signaler plus souvent des requêtes inoffensives que les protections Fable précédentes, et Anthropic prévoit de les ajuster au fil des prochaines semaines
  • Lorsqu’une requête est signalée, une notification s’affiche pour l’utilisateur, et la réponse est fournie à la place par Opus 4.8
  • Les classifieurs de biologie et de chimie sont identiques à ceux du lancement initial, si bien que même des questions basiques proches de la biologie peuvent entraîner un fallback vers Opus 4.8
  • Les forfaits payants avec quota inclus peuvent utiliser Fable 5 jusqu’à 50 % de leur limite d’utilisation hebdomadaire jusqu’au 7 juillet ; ensuite, il faudra recourir à d’autres modèles ou à des crédits d’utilisation (usage credits)

Reprise de l’accès à Fable 5 et ajustement des protections

  • Anthropic a mis à jour les protections de cybersécurité après des échanges avec le gouvernement américain
  • La plupart des tâches de code ne sont pas affectées par ce changement
  • À court terme, les nouvelles protections pourraient signaler un peu plus de requêtes inoffensives que les protections Fable précédentes
    • Anthropic prévoit d’améliorer les classifieurs au cours des prochaines semaines
    • Les requêtes signalées seront clairement notifiées à l’utilisateur
    • La réponse correspondante sera fournie par Opus 4.8

Limites actuelles des classifieurs de biologie et de chimie

  • Les classifieurs de biologie et de chimie sont identiques à ceux du lancement initial
    • Les classifieurs actuels opèrent plus largement que souhaité
    • Même des questions basiques proches de la biologie peuvent provoquer un fallback vers Opus 4.8
    • L’amélioration de ces classifieurs sera bientôt appliquée

Conditions d’utilisation des forfaits payants et canaux de feedback

  • Tous les forfaits payants avec quota inclus ont accès à Fable 5 jusqu’au 7 juillet
  • Fable 5 peut être utilisé jusqu’à 50 % maximum de la limite d’utilisation hebdomadaire
    • Pour le quota restant, il est possible de passer à d’autres modèles
    • Il est également possible de continuer à utiliser Fable avec des crédits d’utilisation
  • Informations sur l’accès promotionnel : Claude Fable 5 promotional access
  • Si une requête est signalée à tort dans Claude Code, il est possible de la signaler avec /feedback
  • Dans Claude.ai et Cowork, le feedback peut être partagé via les boutons thumbs
    • Ce feedback est utilisé pour ajuster les classifieurs et réduire les faux positifs
  • Article de blog sur Fable 5 : Claude Fable 5 Mythos 5

4 commentaires

 
seoseonyu 1 시간 전

Le 7 juillet... je vais probablement devoir continuer à m'accrocher à la 5.6 Sol, tout simplement

 
treestae 21 분 전

Moi aussi, j'attends Sol.
Galaxy ou Cosmos sortiront sans doute aussi...

 
GN⁺ 4 시간 전
Avis sur Hacker News
  • Je pense que les poids de Fable/Mythos peuvent, intentionnellement ou non, fuiter vers des acteurs hostiles, ou se retrouver sur n’importe quel torrent, à cause d’une seule erreur
    Les poids de Fable seront probablement déployés dans des centaines de datacenters, et des milliers de personnes auront vraisemblablement un accès direct ou indirect, partiel ou total. S’il s’agit vraiment d’un modèle de niveau fin du monde, je ne pense pas qu’on le traiterait ainsi ; pour Mythos, je peux croire qu’il ne tourne que dans des datacenters conformes aux réglementations gouvernementales. Mais si le modèle a une telle valeur, des hackers soutenus par des États mettront beaucoup plus d’efforts pour l’exfiltrer. Quelle que soit la réalité, il est difficile de croire qu’il soit aussi révolutionnaire qu’Anthropic le dit

    • On entend dire que les modèles sont trop dangereux depuis GPT-2
      À un moment, on ne se contente plus de souhaiter que le garçon qui crie au loup arrête : on en vient presque à souhaiter qu’il se fasse dévorer par le loup
    • À long terme, le meilleur scénario serait peut-être que Mythos fuite d’une manière ou d’une autre et que toute l’humanité puisse l’utiliser en auto-hébergement
    • C’est peut-être plus complexe qu’on ne le pense. À ma connaissance, Nvidia propose des TEE sur ses gammes coûteuses, donc les poids sont probablement utilisés sous forme chiffrée
      Cela ne veut pas dire qu’une fuite est impossible, mais cela devient un chantier considérable. C’est peut-être aussi pour cette raison qu’Anthropic ne s’inquiète pas trop qu’Elon serve le modèle de son côté. En gros, le flux serait : handshake avec le TEE de Nvidia, injection de la clé, puis upload des poids chiffrés. Il est aussi possible qu’un minuteur expire en l’absence de signal heartbeat, pour empêcher de continuer à faire tourner du matériel Nvidia avec des poids volés
    • Anthropic ne semble pas vraiment affirmer que c’est un modèle de niveau fin du monde. Il semble plutôt dire qu’il peut être dangereux parce qu’il a des capacités offensives en cybersécurité
    • Pour moi, c’est entièrement du marketing. Le gouvernement a sans cesse donné l’impression d’agir comme un initié pratiquant le délit d’initié
  • J’ai fourni le manuscrit d’un livre sur la conscience humaine et il a été bloqué. Ce modèle est ridiculement mauvais, et Anthropic l’a neutralisé au point que cela paraît malveillant
    Je n’ai pas l’intention de payer pour quelque chose de pratiquement inutile

    • Aujourd’hui, j’ai demandé à Sonnet d’utiliser le navigateur MCP pour saisir le nom d’utilisateur et le mot de passe d’un projet sur lequel je travaille, et il m’a répondu qu’il ne pouvait pas le faire parce que cela violerait les protocoles de sécurité
      Avant, ça fonctionnait bien. J’aime Claude, donc j’ai continué à l’utiliser même quand on disait que Codex était meilleur, mais là on approche vraiment de la limite. Payer plus de 200 dollars par mois, le recommander aussi dans mon travail en contrat, et ne même pas obtenir un service avec un minimum de respect, c’est complètement absurde. Dans six mois, ils n’autoriseront plus que les recettes d’Easy-Bake, puis ils rabaisseront encore le niveau vers des discussions sur les prairies de fleurs sauvages si quelqu’un se brûle avec une ampoule
    • Même problème. Un livre que j’écris sur le langage et la thermodynamique est aussi bloqué. On dirait que le classifieur n’est qu’une regex
    • Le timing est particulièrement maladroit. Ce modèle a été présenté comme fort sur les longs contextes de travail, la persévérance et la capacité à pousser de grosses tâches de manière autonome
      Mais s’il peut repasser à Opus 4.8 en plein milieu, ou se couper à tout moment, il est difficile de compter sur cette capacité. Quand on lance ce genre de processus long, ça tient plutôt bien, puis dès que quelque chose est classé comme échec, le « travail long » meurt et un humain doit le relancer, ou forcer un rollback puis réessayer
    • Ça a été bloqué dès la première requête. Mon partenaire m’a demandé de lire des notes sur des bugs vus dans le frontend du site, des corrections de wording produit, un bug CSS et des problèmes de formulation, et ça a été bloqué immédiatement. Inutile
    • Cette fois, on dirait qu’ils ont été obligés de faire ça. Il suffit de voir le billet d’hier sur l’élargissement de la marge de sécurité du classifieur
  • Pendant l’absence de Fable, Opus m’a paru largement suffisant. Maintenant qu’il est revenu, il ne m’a pas du tout manqué

  • Je l’utiliserai ce soir, mais sans enthousiasme. Après le 7 juillet, je n’ai pas envie de passer soudainement aux prix de l’API, alors qu’avec l’abonnement j’obtenais jusqu’ici une valeur bien supérieure
    Peut-être que c’est ça, « l’économie des tokens » qui attend tout le monde cette année. En tout cas, je compte en tirer le maximum tant que c’est possible, puis revenir ensuite à mes partenaires fiables, Opus 4.6 et Sonnet 4.6. Je ne sais pas combien de temps ils resteront disponibles

    • En l’utilisant comme ça, tu ne vas pas vider ton quota immédiatement et finir par payer les prix de l’API ?
    • Je suis presque certain qu’un forfait Max 350 sortira après le 7 juillet
    • Au moment où la dégradation des performances a commencé, j’ai figé le modèle par défaut sur Opus 4.6. Les résultats sont bien meilleurs qu’avec les versions 4.7 et suivantes
      J’imagine que c’est ça, la dégradation du service
  • La perte de confiance dans les modèles basés aux États-Unis sera probablement difficile à réparer
    Le message apocalyptique exagéré d’Anthropic, et l’administration qui s’est laissée entraîner par lui, ont fortement érodé la confiance et ont même déclenché une sorte de course aux armements

    • À l’inverse, « notre produit était si bon qu’il a été interdit » est probablement la meilleure publicité possible. OpenAI aurait tout fait pour obtenir une telle situation
      Je n’ai pas spécialement envie de tester Sonnet 5 tout de suite, mais Fable m’intéresse pas mal
    • J’espère qu’OpenAI et les entreprises chinoises apporteront la concurrence nécessaire
    • Si vous avez construit un produit basé sur l’IA, vous devriez diversifier vos fournisseurs ou créer une couche d’abstraction pour ne pas être dépendant d’un modèle. Il faut pouvoir brancher n’importe quel modèle
      Si vous êtes ingénieur logiciel côté utilisateur final, utilisez d’autres modèles comme Gemini ou ChatGPT. C’est plus productif que de se plaindre d’une confiance qui n’a jamais existé. Anthropic n’est qu’une entreprise qui fournit un service, et elle peut l’interrompre à tout moment, qu’il y ait interdiction d’exportation ou non. C’est pareil pour n’importe quelle entreprise d’IA dans n’importe quel pays. Si vous voulez un LLM vraiment fiable, il faut faire tourner vous-même un modèle à poids ouverts
    • À l’inverse, que se serait-il passé si Anthropic n’avait pas communiqué comme elle le fait maintenant et que Fable avait été utilisé pour pirater le Pentagone ? Dario aurait été pendu à un arbre
    • Il est très probable que l’immense majorité des utilisateurs n’aient même pas su que tout cela s’était produit. Nous oublions souvent que nous qui vivons ici, sur HN, sommes dans une bulle. L’entreprise présentera ça comme un succès et continuera
  • Dans certains projets, plutôt que de faire générer tout le code, il peut être plus utile de faire produire un plan et une boucle de tests/vérification de format
    Ces livrables consomment beaucoup moins de tokens que l’ensemble du projet, et les boucles suivantes peuvent être exécutées avec des modèles plus anciens

    • J’ai essayé ça aujourd’hui sur un projet réparti sur deux dépôts. J’avais déjà posé la conception d’un cas d’usage majeur, et la tâche consistait à faire produire par Claude un surensemble pas très différent
      Après la création du plan, il ne restait qu’environ 10 % de la fenêtre de contexte de 5 heures de Fable 5, et c’est tout ce sur quoi j’ai travaillé aujourd’hui. Évidemment, c’est difficile à généraliser
    • Exact. Je fais rédiger le plan par Opus, puis je lance plusieurs sous-agents Sonnet pour l’implémentation. C’est moins cher et plus rapide
    • C’est précisément l’objectif de Devin Fusion, et les résultats semblent plutôt bons jusqu’ici
      https://cognition.com/blog/devin-fusion
    • Je me demande si quelqu’un a testé le traitement par lots. D’après https://claude.com/pricing#api, utiliser Batch Processing réduit le prix de 50 %
      Je me demande si des outils d’exécution comme OpenCode/Pi pourraient être adaptés pour l’exploiter sur des tâches comme la planification
    • C’est l’idée d’opusplan
      https://code.claude.com/docs/en/model-config#opusplan-model-...
  • J’utilise Claude Pro de temps en temps, et le message me prête à confusion. Je passe peut-être à côté de quelque chose d’évident
    « Jusqu’au 7 juillet, vous pouvez utiliser jusqu’à 50 % de la limite d’utilisation hebdomadaire de votre forfait avec Fable 5 » : est-ce que ça veut dire que l’accès à Fable dans mon abonnement est une promotion à durée limitée ? Je suis abonné, pourquoi ne puis-je pas simplement utiliser le modèle ? Est-ce que, à l’avenir, l’abonnement ne donnera accès qu’aux anciens modèles, et les nouveaux nécessiteront un paiement supplémentaire ?

    • Oui
      Il est écrit : « Après le 7 juillet 2026, Claude Fable 5 ne sera plus inclus dans la limite d’utilisation hebdomadaire de votre forfait. Claude Fable 5 restera disponible via des crédits d’utilisation, et vous pourrez payer pour dépasser l’usage inclus dans votre forfait. » Je ne sais pas ce que ça signifie à long terme. Si des modèles plus puissants arrivent ou si la capacité de calcul d’Anthropic augmente, Fable 5 pourrait réintégrer l’abonnement ; ou bien ce pourrait être le début de la fin des abonnements. Dans un contexte où les autres fournisseurs continuent de sortir de meilleurs modèles, payer un abonnement bloqué sur Opus 4.8 n’a pas beaucoup de sens
    • Ça n’a même pas duré longtemps
      Dynamic workflow “Multi-lens review of docs/membership-and-friends-model.md with adversarial verification” completed · 25m 59s
      J’ai atteint la limite de Fable 5
      Le message indique que j’ai utilisé toute la quantité de Fable 5 incluse cette semaine, et qu’il faut des crédits d’utilisation pour continuer à utiliser Fable 5
    • Lors du lancement initial, ils avaient dit que Fable 5 serait utilisable dans l’abonnement pendant une période limitée, puis qu’il faudrait des crédits d’utilisation
      À l’époque, ils avaient aussi dit vouloir un jour le réintégrer aux forfaits d’abonnement. Avec ce retour, ils ont prolongé la période d’utilisation jusqu’au 7 juillet, mais l’ont limitée à 50 % du quota d’usage, sans répéter qu’ils voulaient un jour l’inclure durablement dans les abonnements. Il reste de l’espoir, mais ce n’est clairement pas une évolution très favorable
    • Les abonnements continueront probablement à donner accès aux nouveaux modèles. On devrait avoir accès à Sonnet 5, qui est un nouveau modèle. C’est juste que les modèles de niveau Mythos sont réservés à l’API
      C’est le cas pour l’instant, mais avec ce genre d’entreprise, on ne sait jamais quand ça peut changer
    • Fable coûte plus cher à exécuter, et ils ne semblent pas encore avoir arrêté leur stratégie de mise sur le marché
      Ils veulent probablement voir combien les gens l’utilisent réellement, pour décider s’il vaut la peine de continuer à le subventionner dans les forfaits Max/Pro, ou s’il faut créer un niveau supplémentaire au-dessus
  • « Quand Claude Fable 5 refuse une requête, l’API Messages renvoie une réponse HTTP 200 réussie avec stop_reason: "refusal", et non une erreur »
    C’est exactement ce qui me vient à l’esprit quand je pense à un « succès »

    • Ils ont raté l’occasion d’utiliser le code d’état HTTP 451
      https://en.wikipedia.org/wiki/HTTP_451
    • Je me demande si un refus peut se produire au milieu du streaming, après que le code d’état et les en-têtes ont déjà été reçus. Je n’ai pas examiné l’API
  • Dans le terminal Claude Code, il est indiqué que « jusqu’au 7 juillet, vous pouvez utiliser jusqu’à 50 % de la limite hebdomadaire de votre forfait avec Fable 5 ; une fois la limite atteinte, vous pouvez continuer avec des crédits d’utilisation ; Fable 5 consomme l’usage plus vite qu’Opus 4.8 »
    Il me semble que cette règle des 50 % n’existait pas avant, non ?

    • Opus 4.8 est beaucoup trop lent par rapport à GPT 5.5, donc même s’il est un peu meilleur, ça n’a pas d’intérêt pour les tâches d’ingénierie quotidiennes
      GPT 5.6 devrait bientôt arriver, et le forfait Codex à 249 $/mois a été très généreux jusqu’ici. Pour justifier ce qui semble être le nouveau coût de Fable 5, il faudrait qu’il soit nettement meilleur que dans mon souvenir
    • Ils n’ont pas non plus réinitialisé l’usage. Bonne chance
    • Après le 7 juillet, il ne restera qu’un modèle à l’usage. Il ne sera plus inclus dans aucun niveau d’abonnement
      À la limite, j’aurais préféré qu’ils ne le remettent pas. Si on l’utilise intensivement comme avant, le coût revient en pratique à 10 à 20 fois plus que le prix de l’abonnement 20x
    • Avant, ce n’était pas le cas
  • J’aimerais qu’ils reconsidèrent le fait de réintégrer l’accès à Fable dans les forfaits d’abonnement. À mon avis, il devrait au moins être inclus dans le forfait 20x
    Quand la première période d’environ 14 jours avait été annoncée, j’avais compris que c’était l’intention initiale, et qu’ils travaillaient à le maintenir dans les abonnements. Mais maintenant, ils ne disent même plus si c’est encore en discussion

    • Le marché finira par les pousser à le réintégrer. Pour l’instant, il y a peut-être des contraintes de capacité, ou bien ils évaluent s’il faut un autre niveau tarifaire pour que ça colle aux abonnements
      Le scénario qu’ils veulent sans doute éviter, c’est quelqu’un qui code 4 jours par semaine et atteint la limite chaque semaine
    • Ce n’est inclus que jusqu’à la semaine prochaine
      « Fable 5 est inclus jusqu’à 50 % de la limite d’utilisation hebdomadaire jusqu’au 7 juillet, puis il sera disponible via des crédits d’utilisation »
 
runai 2 시간 전

Avec les crédits, qui pourrait l’utiliser ? Par mois, ça pourrait se chiffrer à plusieurs millions de wons, non ? À ce compte-là, autant utiliser la prochaine version 5.6 de GPT.