- Les chercheurs soulignent que l’usage du timing et de la synchronisation par les neurones du cerveau pour le calcul est un élément clé négligé par l’IA moderne
- Ils introduisent l’architecture Continuous Thought Machine (CTM), qui intègre dans un modèle réel les dynamiques neuronales temporelles du cerveau animal
- CTM traite l’information en exploitant une dimension interne de pensée asynchrone, des modèles au niveau du neurone individuel, ainsi qu’une représentation de la synchronisation entre neurones
- Diverses expériences confirment une capacité de calcul adaptative, une mémoire fondée sur la synchronisation neuronale et une forte capacité de généralisation
- Elles démontrent aussi la facilité d’interprétation de l’architecture CTM, sa plausibilité biologique et son adéquation à diverses tâches
tl;dr
- Les propriétés de timing et de synchronisation utilisées par les neurones du cerveau pour le calcul sont au cœur de la souplesse et de l’adaptabilité de l’intelligence biologique
- L’IA moderne abandonne ces propriétés fondées sur le temps au profit de l’efficacité et de la simplicité
- L’équipe de recherche a trouvé un moyen de réduire l’écart entre la plausibilité biologique, où le timing des neurones est essentiel, et une mise en œuvre efficace en IA moderne
- Le résultat se révèle très surprenant et prometteur
Introduction
- Les Neural Network (NN) se sont initialement inspirés du cerveau biologique, mais les NN actuels ont des structures et des dynamiques très différentes du cerveau réel
- Les NN modernes ont rendu possible le deep learning à grande échelle en supprimant les dynamiques temporelles, mais cela les éloigne de leur base biologique
- Le cerveau exploite des dynamiques neuronales complexes comme la plasticité dépendante du timing des spikes (STDP) et la synchronisation des neurones
- Ces principes de traitement temporel font défaut dans l’IA moderne, ce qui freine son évolution vers une intelligence flexible au niveau humain
- Les capacités de traitement du temps doivent donc devenir un élément central de l’intelligence artificielle
Pourquoi cette recherche ?
- Malgré les hautes performances de l’IA moderne, il subsiste une différence fondamentale en matière de cognition humaine flexible et de généralité
- Pour que l’intelligence artificielle dépasse le cerveau humain, elle doit imiter de manière active l’activité neuronale et le timing
- Dans cette étude, le Continuous Thought Machine (CTM) introduit le timing des neurones comme élément central
- Les contributions majeures sont la séparation d’une dimension interne de pensée, un modèle neuronal au niveau du neurone individuel et une structure de représentation fondée sur la synchronisation
Modèles de raisonnement et récurrence
- L’IA évolue de plus en plus au-delà d’un simple mapping entrée-sortie vers de véritables modèles de raisonnement
- Les structures récurrentes de type RNN ont récemment été remplacées par les Transformer, mais la récurrence en elle-même reste utile pour faire évoluer la complexité des modèles
- Les modèles modernes de génération de texte utilisent, au test time, une génération intermédiaire (Recurrence), ce qui apporte calcul supplémentaire et flexibilité
- CTM se distingue des approches existantes en utilisant une dimension interne de pensée progressive et séparée, le timing au niveau du neurone individuel et la synchronisation elle-même comme représentation pour résoudre les tâches
Méthode
Vue d’ensemble de l’architecture
- CTM est une architecture dans laquelle l’activité neuronale se déploie en interne à partir des données
- À chaque étape, l’historique des
pre-activation est collecté puis envoyé au Neuron Level Model (NLM)
- À partir des historiques de
post-activation de plusieurs neurones, une matrice de synchronisation neuronale est calculée afin de produire une puissante représentation de synchronisation
- Cette représentation de synchronisation sert de vecteur latent central pour l’observation et la prédiction du modèle
Structure détaillée
1. Internal recurrence (récurrence interne)
- Une dimension de récurrence interne est utilisée afin de réserver un axe distinct où le déroulement de la pensée peut se développer
- Chaque tick interne fonctionne comme une unité de pensée autonome, indépendamment des séries temporelles externes
2. Neuron-level models (modèles au niveau du neurone)
- Chaque neurone possède une structure MLP personnalisée et reçoit en entrée un court historique de
pre-activation pour produire une post-activation
3. Synchronization as representation (la synchronisation comme représentation)
- Une matrice de synchronisation neuronale est calculée à partir de toutes les
post-activation sur une certaine période, et sert de représentation latente / vecteur d’action central
Relation avec les données d’entrée
- Les données utilisent de manière complémentaire un traitement centré sur la récurrence interne et la synchronisation
- L’observation et la prédiction des données d’entrée dépendent de l’état de synchronisation
Internal ticks : dimension de pensée
- CTM possède sa propre timeline de pensée et met à jour puis affine l’information de façon répétée en interne, indépendamment de l’ordre des données
- C’est dans cette dimension que l’activité intelligente se déploie
Recurrent weights : synapses
- Un MLP de style U-NET produit les
pre-activation et conserve les M dernières valeurs
- Chaque neurone utilise un MLP individuel pour recevoir un vecteur d’historique (série temporelle de
pre-activation) et produire la post-activation
Synchronization as a representation
- Le modèle interagit avec l’extérieur via une matrice de synchronisation entre neurones
- Les valeurs de synchronisation sont utilisées directement comme indicateurs d’action réels (sortie, observation, attention query, etc.)
- À mesure que la largeur du modèle D augmente, la capacité de représentation et la quantité d’information augmentent de façon quadratique
- Combinée à des modules de données d’entrée comme l’attention, cette approche montre une capacité de traitement de l’information encore plus puissante
Fonction de perte
- À chaque tick interne, le modèle produit une sortie et calcule la loss ainsi que le niveau de confiance (1 - entropie normalisée) correspondant
- La loss globale agrège dynamiquement le moment de perte minimale et le moment de confiance maximale, afin d’encourager un apprentissage adaptatif selon la difficulté du problème
Expérience : ImageNet
Démonstrations
- CTM effectue ses prédictions sur des données d’image en exploitant diverses attention heads et la synchronisation neuronale
- La précision, la calibration et différents indicateurs selon les seuils de confiance sont visualisés
Résultats
- Grâce à l’adaptive compute, CTM ajuste ses étapes de pensée, et l’on observe qu’au-delà d’un certain nombre d’étapes, le bénéfice supplémentaire devient limité
- 16 attention heads sont visualisées avec, à chaque étape, les prédictions de classe, la précision et l’activité neuronale
Discussion
- CTM met l’accent sur une interaction intuitive et flexible avec les données
- Grâce à une représentation fondée sur la synchronisation neuronale, il se distingue clairement des approches existantes, y compris en vision
- Cela suggère que la dimension TIME est fondamentalement liée à la manière dont les humains traitent l’information
Expérience : résolution de labyrinthes 2D
Le pourquoi et le comment
- La résolution de labyrinthes 2D est une tâche très difficile pour les modèles neuronaux sans outil dédié
- CTM est entraîné en prédiction directe de trajectoire (L/R/U/D/W), et ses motifs d’attention coïncident volontairement avec le chemin réel
- Lors des tests de généralisation, il résout avec une grande précision et une forte généralisation des labyrinthes longs et complexes
Résultats et discussion
- CTM affiche des performances écrasantes par rapport aux baselines, même sur les chemins les plus longs
- Il forme un world model interne stratégique, proche de l’humain, ce qui indique une véritable capacité de reasoning plutôt qu’une simple mémorisation
Un world model
- Même sans position encoding, il résout le problème en construisant un modèle interne de l’environnement à partir des seules informations visuelles
Expérience : Parité
- Le modèle est entraîné à prédire une parité imbriquée de séquences binaires (somme paire/impaire) avec l’ensemble de l’entrée fourni
- Avec plus de 75 ticks internes de pensée, CTM peut atteindre 100 % de précision
- LSTM devient instable à l’apprentissage lorsque le nombre de ticks internes de pensée augmente
Apprentissage d’algorithmes séquentiels
- À travers le mouvement des attention heads et les motifs d’activation neuronale, on observe que CTM apprend séparément des stratégies de parcours des données en sens inverse et en sens direct
- Cela constitue une preuve de ses capacités de planification stratégique (Planning) et d’exécution par étapes
Expérience : Q&A MNIST
Mémoire via la synchronisation
- La tâche MNIST Q&A sert à tester les capacités de CTM en mémoire à long terme et en rappel
- Même lorsque l’image d’entrée sort de la fenêtre d’historique des activations neuronales, le modèle conserve et récupère l’information de mémoire à long terme via la synchronisation
Résultats et généralisation
- Les performances s’améliorent à mesure que le nombre de ticks internes de pensée augmente, avec une excellente capacité de généralisation à des questions plus complexes et plus longues
- LSTM devient instable avec davantage de ticks, tandis que CTM apprend et infère de manière constante
Expériences supplémentaires
CTM versus humains
- Comparaison des performances sur CIFAR-10 entre humains, modèle feedforward, LSTM et CTM
- En matière de calibration (adéquation des prédictions probabilistes), CTM surpasse les humains
- Les dynamiques de synchronisation neuronale révèlent des caractéristiques internes très variées et complexes, à l’opposé des approches classiques
CIFAR-100, études d’ablation
- Plus la largeur du modèle augmente, plus on observe une hausse de la diversité et des dynamiques neuronales
- Selon le nombre de ticks internes, des processus de pensée internes différents selon les problèmes apparaissent, avec une distribution « à deux pics »
Tri de nombres réels
- Dans une expérience de tri de 30 nombres réels, CTM montre un comportement émergent où le temps de calcul interne (ticks d’attente) varie selon la distance ou l’écart entre les valeurs
Reinforcement Learning
- Dans des environnements de RL comme MiniGrid et CartPole, CTM utilise des unités internes de pensée continue pour interagir avec l’environnement et prendre des décisions de politique
- Il affiche des performances finales comparables à celles de LSTM, tout en démontrant l’efficacité d’un enregistrement continu de la pensée
Conclusion
- CTM réalise d’une manière inédite la fusion entre plausibilité biologique et efficacité de l’IA
- Grâce à l’introduction de modèles au niveau du neurone et d’un nouveau mode de représentation fondé sur la synchronisation neuronale, il concrétise des capacités de représentation inédites
- Il montre une cohérence architecturale et une forte adaptabilité sur des tâches variées comme la classification d’images, la résolution de labyrinthes, la mémoire, le tri et le RL
- Il met en évidence la synergie entre neurosciences et machine learning, ainsi que l’importance de concevoir des machines à penser centrées sur le temps et la synchronisation
1 commentaires
Avis Hacker News
Ce qui m’inquiète dans cet article, c’est que, malgré l’existence déjà très abondante de travaux en apprentissage automatique sur les réseaux neuronaux impulsionnels biologiquement plausibles et sur les réseaux neuronaux artificiels dépendants du temps, la terminologie et l’approche de l’article donnent l’impression de ne pas vraiment reconnaître cet énorme corpus de travaux antérieurs, en particulier le fait d’appeler l’étape d’intégration synaptique « pensée » (
thinking), ce qui peut semer la confusion, car la pensée, au sens ordinaire, est un processus itératif de génération, d’évaluation et de révision d’idées, alors qu’ici le terme est appliqué au niveau d’un processus d’unité unique, ce qui est aussi très éloigné de la terminologie habituelle des ANN ou du machine learning, cette désignation de « pensée » ne me paraît pas appropriée, je n’ai pas passé en revue toutes les références et je réagis simplement à chaud à partir de formulations qui me sont familières dans ce courant de rechercheJe suis très heureux qu’on se reconcentre sur ce sujet important, dans le contexte du cerveau biologique et du corps, il est facile de penser le « temps » comme un temps newtonien linéaire, mais l’essentiel dans un système cerveau-corps est de créer des séquences ordonnées de comportement et de calcul à travers différents fragments de « présent », du « présent représenté » de 300 ms jusqu’aux 50 microsecondes de cellules qui évaluent la localisation d’un son, pour en savoir plus sur cette temporalité conditionnelle (
temporality), on peut consulter un article récent de l’European Journal of Neuroscience où John Bickle interviewe RW WilliamsMon impression après lecture est que l’article n’a en fait rien à voir avec des réseaux biologiques ou impulsionnels, il conserve un historique des entrées et utilise une attention multi-tête pour construire un modèle interne de la façon dont les entrées « pré-synaptiques » passées se reflètent dans la sortie actuelle, cela ressemble à un transformeur légèrement modifié qui conserve l’historique des entrées et produit une sortie par attention, la « synchronisation » aussi est obtenue en faisant le produit interne de toutes les post-activations, puis en projetant la matrice résultante dans l’espace de sortie, comme plusieurs sorties doivent être multipliées pour produire la bonne valeur à chaque pas de temps, j’imagine que c’est pour cela qu’ils appellent cette combinaison une « synchronisation », cela ressemble à une forme d’induction de « parcimonie » mettant en avant l’importance de la combinaison de plusieurs valeurs de sortie dans une matrice plutôt que l’individualité de chaque valeur, c’est le mécanisme de base de l’attention qui combine les sorties de plusieurs sous-systèmes via leur produit interne
Trois choses intéressantes ce week-end : 1) des machines à pensée continue (des réseaux neuronaux à encodage temporel ressemblant à des cerveaux biologiques), 2) le « zero data reasoning » (une IA qui apprend par l’action directe au lieu d’être préentraînée sur des masses de données), 3) Intellect-2 (une architecture d’apprentissage par renforcement distribuée à l’échelle mondiale), vu de l’extérieur, on a l’impression de se rapprocher d’un pas de plus de la singularité (
singularity)Mettre en œuvre des mécanismes de codage temporel comme le spike timing et la synchronisation est très difficile, c’est pourquoi les réseaux neuronaux modernes privilégient la simplicité et l’efficacité de calcul plutôt que la dynamique temporelle, simuler un vrai domaine temporel est aussi un problème très difficile du point de vue matériel, en particulier parce que cela ajoute un axe distinct d’hyperparamètres, ce qui rend presque impossible la recherche de combinaisons valides, comme il est bien plus rapide de trouver des architectures efficaces en calcul, dès qu’on laisse des spikes se produire à des pas de temps futurs, on introduit des structures événementielles de type file de priorité et la charge de calcul explose, si l’objectif est vraiment l’« interaction hard realtime », peut-être, mais d’un point de vue pratique et produit, je ne vois pas beaucoup d’intérêt à poursuivre ce type d’architecture, le fait que le STDP (modification des poids selon l’écart temporel des spikes) permette un apprentissage en ligne non supervisé reste très séduisant, mais à court terme cela ne semble pas avoir de voie réaliste sur silicium, utiliser du matériel dédié revient à figer une partie des hyperparamètres comme des constantes dans le code, ce qui ne garantit pas vraiment la robustesse et laisse aussi moins de marge de financement
L’idée de ces machines n’est pas complètement nouvelle, un article de 2002 a présenté les Liquid State Machines (LSM), qui alimentent un réseau neuronal impulsionnel avec des entrées continues puis lisent le liquid state via une couche dense connectée à tous les neurones du réseau, un article de 2019 a utilisé les LSM pour jouer à des jeux Atari, dépassant parfois les humains sans que ce soit systématique, et a aussi constaté des échecs similaires à ceux des réseaux neuronaux classiques, les performances n’étaient pas particulièrement supérieures à celles des réseaux neuronaux traditionnels, j’aimerais voir davantage de recherche sur des réseaux neuronaux qui traitent des entrées continues (par exemple l’audio), produisent des sorties en continu et n’appliquent que des principes de plasticité du cerveau, sans rétropropagation, j’ai moi-même essayé, mais soit nous ne comprenons pas encore assez bien le fonctionnement du cerveau, soit je n’ai pas encore trouvé la bonne réponse
Ironiquement, cette page web se recharge sans arrêt sur firefox iOS
Le cœur des modèles de prochaine génération sera le principe « neurons that fire together wire together », je pense que les réseaux neuronaux impulsionnels offrent une approche alternative très intéressante