Machine à pensée continue

(pub.sakana.ai)

2 points par GN⁺ 2025-05-13 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Continuous Thought Machine (CTM) est une nouvelle architecture qui introduit explicitement une dynamique neuronale temporelle dans le calcul des réseaux de neurones, afin de mettre en œuvre à l’intérieur du modèle le « déroulement de la pensée », difficile à traiter par un simple traitement feed-forward statique.
Au cœur de sa structure figurent des internal ticks découplés de l’ordre des données, des neuron-level models où un MLP propre à chaque neurone traite l’historique récent des pré-activations, ainsi qu’une représentation fondée sur la synchronisation temporelle de paires de neurones.
Des expériences sur ImageNet, des labyrinthes 2D, parity, Q&A MNIST, CIFAR-10/100, le tri de nombres réels et l’apprentissage par renforcement montrent qu’il est possible de conserver la structure centrale tout en ne changeant que les modules d’entrée et de sortie.
Dans les expériences de labyrinthe, le modèle prédit directement des chemins L/R/U/D/W sans embeddings de position ; un modèle entraîné sur des labyrinthes 39×39 et des chemins jusqu’à une longueur de 100 généralise à des labyrinthes 99×99 et à des chemins environ 6 fois plus longs.
CTM montre, via ses représentations de synchronisation, des comportements comme le rappel en mémoire, le calcul adaptatif, des déplacements d’attention interprétables et la formation d’un modèle interne du monde, mais ce n’est pas un modèle qui imite littéralement les neurones réels.

Le problème visé par CTM

Les réseaux de neurones existants ont délibérément simplifié la dynamique neuronale temporelle observée dans le cerveau biologique, en privilégiant un traitement centré sur des activations statiques adaptées au deep learning à grande échelle.
Le cerveau présente de la spike-timing-dependent plasticity (STDP), des oscillations neuronales et un codage temporel fondé sur le spike timing et la synchronie, mais les réseaux modernes privilégient surtout la simplicité et l’efficacité de calcul.
L’IA actuelle présente encore des manques par rapport à la flexibilité et à la généralité de la cognition humaine, et une partie pourrait être liée au traitement du temps.
La contribution de CTM se résume en trois éléments :
- dimension interne séparée : un axe temporel sur lequel la pensée peut se déployer dans un système neuronal artificiel ;
- neuron-level models (NLMs) : chaque neurone s’active en traitant l’historique de ses signaux d’entrée, plutôt qu’au moyen d’une fonction statique comme une ReLU fixe ;
- neural synchronization : une représentation latente utilisée directement pour l’observation et la prédiction.

Modèles de raisonnement et recurrence

L’augmentation de la taille des modèles existants a permis de grands progrès, mais ses coûts de calcul et ses besoins en données soulèvent des questions sur sa durabilité à long terme.
Pour les données séquentielles, les familles de RNN ont longtemps été utilisées, avant d’être largement remplacées par les approches fondées sur Transformer ; récemment, la recurrence revient toutefois comme voie pour étendre la complexité des modèles.
Les reasoning models de génération de texte utilisent une forme de recurrence qui augmente le calcul au moment du test via des générations intermédiaires.
Pour CTM, le point central n’est pas la recurrence elle-même, mais le timing précis et l’interaction entre activités neuronales qu’elle rend possibles.
Trois différences avec les approches existantes :
- une pensée séquentielle est possible dans une dimension interne séparée de la modalité des données ;
- un private model propre à chaque neurone gère un timing neuronal fin ;
- la synchronisation neuronale est utilisée directement comme représentation pour résoudre la tâche.

Les trois mécanismes clés de CTM

CTM est une structure qui déploie en interne l’activité neuronale sur plusieurs ticks pendant le traitement des données.
À chaque internal tick, l’historique récent des pré-activations est collecté, puis les NLMs le traitent pour produire des post-activations.
L’historique temporel des post-activations sert à calculer la synchronisation entre neurones ; le résultat devient la Synchronization Representation.
Les détails techniques sont dans le Technical Report, et le GitHub repository est également public.
Internal ticks : la dimension interne où la pensée se déploie
- CTM introduit une dimension interne continue de la forme t ∈ {1, …, T}.
- Au lieu de traiter les données selon leur propre ordre — mots, frames, etc. — comme un RNN ou un Transformer, il fonctionne selon des internal ticks qu’il génère lui-même.
- Grâce à ce déroulement interne, il peut construire et affiner de manière répétée des représentations même sur des données statiques ou non séquentielles, comme des images ou des labyrinthes.
- La démo interactive de labyrinthe en haut de page utilise 75 ticks.
Recurrent weights et neuron-level models
- Le synapse model de CTM est un MLP récurrent de type U-NET, qui génère des pré-activations à chaque tick.
- Les M pré-activations les plus récentes sont rassemblées comme historique d’entrée de chaque neurone.
- Chaque neurone d traite son propre historique de pré-activations avec un private MLP doté de paramètres propres θd, et génère une post-activation.
- Les post-activations de tous les neurones sont combinées à l’attention output, puis entrent dans le calcul récurrent du tick suivant.
Synchronization representation
- CTM n’est pas conçu pour consommer les entrées et produire les sorties à partir d’un instantané de l’état des neurones à un moment donné, mais selon la dynamique de l’activité neuronale au fil du temps.
- Il calcule une synchronization matrix entre neurones via le produit scalaire St = Zt · (Zt)^T de l’historique de post-activations Zt.
- Comme cette matrice croît en O(D²), l’usage pratique sous-échantillonne des paires de neurones (i, j) pour former les représentations Sout et Saction.
- Sout est projeté vers l’espace de sortie pour produire des prédictions comme des logits, tandis que Saction est utilisé pour l’observation comme une attention query.
- Plus la largeur du modèle D augmente, plus l’espace des représentations de synchronisation possibles croît, à l’échelle D × (D+1) / 2.
Mode d’entrée des données
- À chaque internal tick, les données sont observées par attention sur la base de la synchronisation courante.
- La plupart des expériences utilisent une cross attention standard.
- Le FeatureExtractor produit, à partir des données, des caractéristiques locales servant de key et de value ; la query projetée depuis la synchronisation les interroge.
- L’attention output est utilisé avec les post-activations dans le cycle de recurrence suivant.

Perte d’apprentissage : optimiser tous les internal ticks

CTM génère une sortie à chaque internal tick.
Pour la prédiction de chaque tick, une perte standard comme la cross-entropy est calculée, et la certainty est calculée comme 1 - normalized entropy.
La perte finale est la moyenne de deux ticks choisis dynamiquement :
- le tick de perte minimale t1 = argmin(L) ;
- le tick de confiance maximale t2 = argmax(C).
Cette méthode ne dépend pas seulement d’un dernier step unique, ce qui favorise des calculs significatifs sur plusieurs internal ticks.
La conception de la perte crée naturellement un effet de curriculum et permet d’ajuster la quantité de calcul à la difficulté du problème.

Expériences ImageNet

L’objectif des expériences ImageNet n’est pas d’atteindre un nouveau state-of-the-art, mais de montrer comment CTM interagit avec les données.
CTM construit progressivement ses prédictions en observant l’image et utilise directement la neural synchronization comme représentation.
Comme les internal steps peuvent être interrompus en cours de route, le calcul adaptatif est possible.
- Après un certain point, les gains de précision sont faibles, mais des gains supplémentaires existent.
La démo affiche les attention weights des 16 attention heads, les prédictions de classe et la certainty au fil du temps.
L’activité neuronale est visualisée en 2D par projection UMAP ; chaque neurone est représenté par un point, dont la taille indique la valeur absolue et la couleur le signe et l’amplitude de la valeur.

Expériences sur labyrinthes 2D

La résolution de labyrinthe est formulée comme une tâche où le modèle doit construire pas à pas un chemin du départ à l’arrivée.
CTM est entraîné à prédire directement le chemin non pas comme une image, mais comme une séquence d’étapes L/R/U/D/W.
Une petite version de la démo interactive est affichée en haut de page, et une démo d’un modèle plus grand est également présentée.
La démo montre la formation du chemin pendant 75 internal ticks ; les prédictions qui traversent des murs sont exclues de l’affichage du chemin valide.
Les poids des 16 attention heads et l’attention moyenne sont affichés ensemble, ce qui permet de voir où le modèle se concentre.
Généralisation et modèle du monde
- Un CTM entraîné à résoudre, dans des labyrinthes 39×39, des chemins jusqu’à une longueur de 100 est appliqué à des labyrinthes 99×99 plus grands.
- Le chemin complet de l’exemple est environ 6 fois plus long que les conditions d’entraînement.
- CTM n’utilise pas d’embeddings de position et doit prédire directement le chemin comme une chaîne de classes.
- En l’absence d’embeddings de position, CTM doit créer un internal world model pour interroger les données et explorer le labyrinthe.
- Les chercheurs indiquent vouloir voir comment CTM trouve son chemin sans encodage explicite de position dans des environnements plus complexes, comme des jeux ou des vidéos.

Expérience Parity

La parity task consiste à prédire la parité cumulée d’une séquence binaire à chacune de ses 64 positions.
Le vecteur binaire complet de longueur 64 étant fourni en une seule fois, le cadre est plus difficile qu’une entrée séquentielle simple.
CTM est entraîné avec différents nombres d’internal ticks et comparé à un LSTM doté d’un nombre de paramètres équivalent.
Les CTM dépassant 75 internal ticks parviennent à résoudre cette tâche de manière stable, et certaines exécutions atteignent 100 % de précision.
Le LSTM rencontre des difficultés d’apprentissage au-delà de 10 internal ticks, ce qui suggère qu’il n’est pas adapté au déploiement d’une dimension interne de pensée.
Dans la démo, certains attention heads parcourent les données de l’arrière vers l’avant, et le premier attention head n’attend que les positions de parité négative, montrant des comportements interprétables.
Les deux exemples de CTM apprennent des stratégies différentes :
- l’un attend les données dans l’ordre inverse puis prédit la parité cumulée d’un seul coup ;
- l’autre attend dans l’ordre direct et prédit progressivement la parité ;
- les deux atteignent une précision parfaite.

Expériences Q&A MNIST

Q&A MNIST est une tâche destinée à évaluer les capacités de mémoire et de rappel de CTM.
Le modèle observe d’abord une séquence de digits MNIST, puis reçoit un index et un operator embedding indiquant quel digit rappeler et quelle opération modulaire appliquer.
Une fois tous les digits et les index/operator embeddings présentés, un zero-tensor flag déclenche la génération de la réponse finale.
Dans l’expérience, la memory length de CTM est réglée de sorte que les digits MNIST se trouvent en dehors de la fenêtre d’historique d’activation des neuron-level models.
CTM doit donc organiser ses activations pour préserver l’information s’il veut rappeler plus tard les digits.
Résultats et généralisation
- Quand il y a un internal tick par entrée, le LSTM obtient de meilleures performances que CTM, mais il devient plus instable quand le nombre d’internal ticks augmente.
- CTM gagne en performance avec l’augmentation des internal ticks et atteint plus de 95 % de précision sur la tâche in-distribution la plus difficile.
- CTM peut rappeler des valeurs de digits observées à des timesteps anciens, ce qui est interprété comme le résultat de l’organisation et de la synchronisation des neurones.
- Dans les expériences de généralisation, la précision est mesurée lorsque davantage de digits ou d’index-operator embeddings qu’à l’entraînement sont fournis en entrée.
- CTM et la baseline LSTM généralisent toutes deux à l’augmentation du nombre d’opérations.
- Les résultats empiriques montrent qu’à chaque nouvel index embedding présenté, le modèle calcule et stocke le résultat de l’opération indiquée, ce qui lui permet de continuer à traiter sans attendre le final answer flag.
- CTM gagne en performance quand le nombre d’internal ticks augmente, tandis que le LSTM montre la tendance inverse.

Expériences supplémentaires

CIFAR-10 : comparaison avec l’humain, le feed-forward et le LSTM
- L’expérience CIFAR-10 est conçue pour comparer CTM aux performances humaines, à une baseline feed-forward et à une baseline LSTM.
- Pour faire ressortir les différences, un backbone limité est utilisé.
- Les jeux de labels humains CIFAR-10D et CIFAR-10H sont utilisés.
- CIFAR-10D est lié à la correction des niveaux de difficulté.
- CIFAR-10H est un jeu de données utilisé pour quantifier l’incertitude humaine.
- CIFAR-10D est disponible ici, CIFAR-10H ici.
- Les probabilités de CIFAR-10H sont utilisées pour calculer la calibration, et CTM montre la meilleure calibration, même comparé aux humains.
- L’activité neuronale de CTM présente une dynamique riche, diverse et complexe, et un comportement périodique apparaît même sans periodic driving function.
- Les différences d’activité neuronale entre CTM et LSTM étayent l’idée que les neuron-level models et la synchronization representation permettent la dynamique neuronale comme mécanisme de calcul.
Ablation CIFAR-100
- Dans l’expérience CIFAR-100, le nombre de neurones, c’est-à-dire la largeur du modèle, varie tandis que les autres conditions et le temps d’entraînement restent fixes.
- Les réseaux plus larges peuvent nécessiter un entraînement plus long ou d’autres hyper-parameters, ce qui peut entraîner certaines baisses de précision.
- Pour évaluer à quel point les neuron-level models deviennent distincts, la cosine similarity de la dynamique entre neurones est mesurée.
- On observe qu’à mesure que la largeur du modèle augmente, la diversité entre neurones ne diminue pas, mais augmente.
- La relation entre le nombre d’internal ticks et les prédictions est également analysée.
- Pour les réglages à 25, 50 et 100 internal ticks, la distribution du step où CTM est le plus confiant est examinée.
- Deux zones de concentration apparaissent dans chaque configuration, ce qui est interprété comme le signe que CTM suit des processus internes distincts selon les données.
Tri de nombres réels
- CTM est entraîné à trier 30 nombres réels issus de N(0, I30).
- L’objectif est d’observer, dans un environnement contrôlé, quand CTM applique plus ou moins de calcul, et de vérifier s’il peut apprendre une sortie séquentielle avec la CTC loss.
- Ce CTM parvient à trier des listes de 30 nombres réels avec une probabilité d’environ 80 %.
Apprentissage par renforcement
- Au-delà du traitement de données non séquentielles avec une continuous thought dimension, CTM est aussi appliqué à des tâches d’interaction avec un environnement externe.
- Des variantes de navigation task, de partially observable CartPole et d’Acrobot sont entraînées avec proximal policy optimization.
- Dans cette configuration, CTM reçoit une observation, la traite pendant un nombre fixe d’internal thought steps, puis produit l’action suivante.
- L’activation history est conservé en continu entre les steps de l’environnement, de sorte que les activations des steps passés peuvent influencer la décision actuelle.
- En conséquence, CTM atteint des performances comparables à la baseline LSTM et montre qu’il peut apprendre dans des environnements continus.

Conclusion et limites

CTM remplace la pointwise activation function par des private neuron-level models afin de produire une dynamique neuronale plus riche, et utilise neural synchronization comme nouvelle représentation plutôt qu’un vecteur d’activation.
Cette approche permet la construction de représentations au fil du temps pour la classification d’images, l’attention dans des labyrinthes sans embeddings de position et la formation d’une carte interne, le calcul adaptatif, ainsi que le stockage et le rappel de souvenirs hors de l’activation history.
L’architecture centrale de CTM reste globalement la même sur diverses tâches, les ajustements portant principalement sur les modules d’entrée et de sortie.
Dans des scénarios complexes comme l’exploration de labyrinthe, CTM fonctionne avec peu de tuning, tandis que le LSTM rencontre des difficultés même après un tuning substantiel.
CTM n’est pas un modèle cherchant à imiter strictement et littéralement les neurones biologiques.
- Les neurones réels n’ont pas nécessairement accès à un activation history comme CTM.
- Malgré cela, des phénomènes émergents comme des traveling waves apparaissent.
CTM emprunte des concepts à la biologie tout en arbitrant entre utilité pratique et inspiration biologique, et pourrait constituer une direction de recherche ouvrant des capacités qui manquent à l’IA actuelle.

Machine à pensée continue

Le problème visé par CTM

Modèles de raisonnement et recurrence

Les trois mécanismes clés de CTM

Internal ticks : la dimension interne où la pensée se déploie

Recurrent weights et neuron-level models

Synchronization representation

Mode d’entrée des données

Perte d’apprentissage : optimiser tous les internal ticks

Expériences ImageNet

Expériences sur labyrinthes 2D

Généralisation et modèle du monde

Expérience Parity

Expériences Q&A MNIST

Résultats et généralisation

Expériences supplémentaires

CIFAR-10 : comparaison avec l’humain, le feed-forward et le LSTM

Ablation CIFAR-100

Tri de nombres réels

Apprentissage par renforcement

Conclusion et limites

À lire aussi

Aucun commentaire pour le moment.