OpenMythos : une implémentation open source issue de la rétro-ingénierie de Claude Mythos
(github.com/kyegomez)- Projet open source implémenté sous la forme d’un « transformeur qui réfléchit de manière itérative », en partant d’hypothèses sur l’architecture de Claude Mythos
- OpenMythos reproduit l’architecture de Claude Mythos, présenté comme le modèle de nouvelle génération d’Anthropic, en combinant des informations publiques et des idées de recherche
- Il ne s’agit pas du modèle réel, mais d’un projet qui implémente en code l’hypothèse selon laquelle « il pourrait fonctionner de cette manière »
Idée clé
Le cœur de ce projet est, contrairement aux LLM classiques,
de ne pas agrandir le modèle, mais d’exécuter plusieurs fois la même structure.
Une même couche est réutilisée à plusieurs reprises pour mettre à jour progressivement l’état interne,
et permettre ainsi un raisonnement plus profond.
Architecture principale
- Structure reposant sur l’exécution répétée d’un même bloc transformeur
- Activation sélective de différents experts (MoE) au cours des itérations
- Traitement des résultats intermédiaires dans l’état interne, sans les produire comme tokens externes
- Utilisation d’une architecture d’attention visant à améliorer l’efficacité mémoire
Différences avec l’approche classique
Là où un LLM classique rend son processus de raisonnement visible en générant des tokens,
cette architecture se rapproche d’un fonctionnement où plusieurs calculs internes sont répétés avant de ne produire que le résultat final.
Autrement dit, au lieu de « penser en parlant »,
elle vise une structure qui « réfléchit suffisamment en interne avant de parler ».
Portée
Cette approche est aussi liée au problème de coût provoqué par l’augmentation du nombre de tokens utilisés.
En traitant le raisonnement par des itérations internes, il devient possible de réduire le nombre de tokens générés vers l’extérieur.
On peut aussi y voir une nouvelle orientation, dans la mesure où l’amélioration des performances du modèle ne passe pas par une hausse du nombre de paramètres,
mais par une augmentation de la quantité de calcul au moment de l’inférence.
Limites
Rien ne garantit que cette architecture soit identique à celle du véritable Claude Mythos,
et il manque encore des performances validées ainsi que des résultats d’expériences à grande échelle.
Insight en une phrase
- Au lieu de rendre le modèle plus grand, faire tourner plusieurs fois le même modèle pour le faire réfléchir plus en profondeur pourrait devenir une approche clé dans la conception des LLM de prochaine génération
Aucun commentaire pour le moment.