18 points par princox 10 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Projet open source implémenté sous la forme d’un « transformeur qui réfléchit de manière itérative », en partant d’hypothèses sur l’architecture de Claude Mythos
  • OpenMythos reproduit l’architecture de Claude Mythos, présenté comme le modèle de nouvelle génération d’Anthropic, en combinant des informations publiques et des idées de recherche
  • Il ne s’agit pas du modèle réel, mais d’un projet qui implémente en code l’hypothèse selon laquelle « il pourrait fonctionner de cette manière »

Idée clé

Le cœur de ce projet est, contrairement aux LLM classiques,
de ne pas agrandir le modèle, mais d’exécuter plusieurs fois la même structure.

Une même couche est réutilisée à plusieurs reprises pour mettre à jour progressivement l’état interne,
et permettre ainsi un raisonnement plus profond.

Architecture principale

  • Structure reposant sur l’exécution répétée d’un même bloc transformeur
  • Activation sélective de différents experts (MoE) au cours des itérations
  • Traitement des résultats intermédiaires dans l’état interne, sans les produire comme tokens externes
  • Utilisation d’une architecture d’attention visant à améliorer l’efficacité mémoire

Différences avec l’approche classique

Là où un LLM classique rend son processus de raisonnement visible en générant des tokens,
cette architecture se rapproche d’un fonctionnement où plusieurs calculs internes sont répétés avant de ne produire que le résultat final.

Autrement dit, au lieu de « penser en parlant »,
elle vise une structure qui « réfléchit suffisamment en interne avant de parler ».

Portée

Cette approche est aussi liée au problème de coût provoqué par l’augmentation du nombre de tokens utilisés.
En traitant le raisonnement par des itérations internes, il devient possible de réduire le nombre de tokens générés vers l’extérieur.

On peut aussi y voir une nouvelle orientation, dans la mesure où l’amélioration des performances du modèle ne passe pas par une hausse du nombre de paramètres,
mais par une augmentation de la quantité de calcul au moment de l’inférence.

Limites

Rien ne garantit que cette architecture soit identique à celle du véritable Claude Mythos,
et il manque encore des performances validées ainsi que des résultats d’expériences à grande échelle.

Insight en une phrase

  • Au lieu de rendre le modèle plus grand, faire tourner plusieurs fois le même modèle pour le faire réfléchir plus en profondeur pourrait devenir une approche clé dans la conception des LLM de prochaine génération

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.