18 points par princox 2026-04-20 | 8 commentaires | Partager sur WhatsApp
  • Projet open source implémenté sous la forme d’un « transformeur qui réfléchit de manière itérative », en partant d’hypothèses sur l’architecture de Claude Mythos
  • OpenMythos reproduit l’architecture de Claude Mythos, présenté comme le modèle de nouvelle génération d’Anthropic, en combinant des informations publiques et des idées de recherche
  • Il ne s’agit pas du modèle réel, mais d’un projet qui implémente en code l’hypothèse selon laquelle « il pourrait fonctionner de cette manière »

Idée clé

Le cœur de ce projet est, contrairement aux LLM classiques,
de ne pas agrandir le modèle, mais d’exécuter plusieurs fois la même structure.

Une même couche est réutilisée à plusieurs reprises pour mettre à jour progressivement l’état interne,
et permettre ainsi un raisonnement plus profond.

Architecture principale

  • Structure reposant sur l’exécution répétée d’un même bloc transformeur
  • Activation sélective de différents experts (MoE) au cours des itérations
  • Traitement des résultats intermédiaires dans l’état interne, sans les produire comme tokens externes
  • Utilisation d’une architecture d’attention visant à améliorer l’efficacité mémoire

Différences avec l’approche classique

Là où un LLM classique rend son processus de raisonnement visible en générant des tokens,
cette architecture se rapproche d’un fonctionnement où plusieurs calculs internes sont répétés avant de ne produire que le résultat final.

Autrement dit, au lieu de « penser en parlant »,
elle vise une structure qui « réfléchit suffisamment en interne avant de parler ».

Portée

Cette approche est aussi liée au problème de coût provoqué par l’augmentation du nombre de tokens utilisés.
En traitant le raisonnement par des itérations internes, il devient possible de réduire le nombre de tokens générés vers l’extérieur.

On peut aussi y voir une nouvelle orientation, dans la mesure où l’amélioration des performances du modèle ne passe pas par une hausse du nombre de paramètres,
mais par une augmentation de la quantité de calcul au moment de l’inférence.

Limites

Rien ne garantit que cette architecture soit identique à celle du véritable Claude Mythos,
et il manque encore des performances validées ainsi que des résultats d’expériences à grande échelle.

Insight en une phrase

  • Au lieu de rendre le modèle plus grand, faire tourner plusieurs fois le même modèle pour le faire réfléchir plus en profondeur pourrait devenir une approche clé dans la conception des LLM de prochaine génération

8 commentaires

 
aliveornot 2026-04-20

Ce serait bien d’avoir un bouton de downvote sur GeekNews.

 
roxie 15 일 전

Oui, haha

 
skageektp 2026-04-21

Rien ne garantit que l’architecture soit réellement identique à celle de Claude Mythos,

Alors ce n’est pas du tout de la rétro-ingénierie, non ?;;

 
rtyu1120 2026-04-20

Comme cela n’a même jamais été rendu public, comment est-ce qu’ils comptent le rétroconcevoir… ??

 
akapwhd 2026-04-21

Ce n’est pas le vrai modèle, mais un projet qui implémente en code l’hypothèse selon laquelle « il pourrait fonctionner de cette manière »..

Alors pourquoi ne pas créer GPT-6 et dire qu’il pourrait fonctionner comme ça~ haha

 
pmc7777 2026-04-20

J’ai l’impression que, dès qu’il y a un sujet qui fait parler, cette personne sort à chaque fois des variantes en série avec le schéma de nom open*, donc l’image que ça renvoie n’est pas franchement très bonne..

 
twiddlingguidable 2026-04-21

En voyant qui l’avait fait, puis en constatant que c’était le patron d’un projet crypto, j’ai hoché la tête d’un air entendu..

 
princox 2026-04-20

Ah oui, en effet. En regardant la liste des dépôts, on voit qu’il y a aussi quelques autres projets qui commencent par Open..