2 points par GN⁺ 2025-05-13 | 1 commentaires | Partager sur WhatsApp
  • Les chercheurs soulignent que l’usage du timing et de la synchronisation par les neurones du cerveau pour le calcul est un élément clé négligé par l’IA moderne
  • Ils introduisent l’architecture Continuous Thought Machine (CTM), qui intègre dans un modèle réel les dynamiques neuronales temporelles du cerveau animal
  • CTM traite l’information en exploitant une dimension interne de pensée asynchrone, des modèles au niveau du neurone individuel, ainsi qu’une représentation de la synchronisation entre neurones
  • Diverses expériences confirment une capacité de calcul adaptative, une mémoire fondée sur la synchronisation neuronale et une forte capacité de généralisation
  • Elles démontrent aussi la facilité d’interprétation de l’architecture CTM, sa plausibilité biologique et son adéquation à diverses tâches

tl;dr

  • Les propriétés de timing et de synchronisation utilisées par les neurones du cerveau pour le calcul sont au cœur de la souplesse et de l’adaptabilité de l’intelligence biologique
  • L’IA moderne abandonne ces propriétés fondées sur le temps au profit de l’efficacité et de la simplicité
  • L’équipe de recherche a trouvé un moyen de réduire l’écart entre la plausibilité biologique, où le timing des neurones est essentiel, et une mise en œuvre efficace en IA moderne
  • Le résultat se révèle très surprenant et prometteur

Introduction

  • Les Neural Network (NN) se sont initialement inspirés du cerveau biologique, mais les NN actuels ont des structures et des dynamiques très différentes du cerveau réel
  • Les NN modernes ont rendu possible le deep learning à grande échelle en supprimant les dynamiques temporelles, mais cela les éloigne de leur base biologique
  • Le cerveau exploite des dynamiques neuronales complexes comme la plasticité dépendante du timing des spikes (STDP) et la synchronisation des neurones
  • Ces principes de traitement temporel font défaut dans l’IA moderne, ce qui freine son évolution vers une intelligence flexible au niveau humain
  • Les capacités de traitement du temps doivent donc devenir un élément central de l’intelligence artificielle

Pourquoi cette recherche ?

  • Malgré les hautes performances de l’IA moderne, il subsiste une différence fondamentale en matière de cognition humaine flexible et de généralité
  • Pour que l’intelligence artificielle dépasse le cerveau humain, elle doit imiter de manière active l’activité neuronale et le timing
  • Dans cette étude, le Continuous Thought Machine (CTM) introduit le timing des neurones comme élément central
  • Les contributions majeures sont la séparation d’une dimension interne de pensée, un modèle neuronal au niveau du neurone individuel et une structure de représentation fondée sur la synchronisation

Modèles de raisonnement et récurrence

  • L’IA évolue de plus en plus au-delà d’un simple mapping entrée-sortie vers de véritables modèles de raisonnement
  • Les structures récurrentes de type RNN ont récemment été remplacées par les Transformer, mais la récurrence en elle-même reste utile pour faire évoluer la complexité des modèles
  • Les modèles modernes de génération de texte utilisent, au test time, une génération intermédiaire (Recurrence), ce qui apporte calcul supplémentaire et flexibilité
  • CTM se distingue des approches existantes en utilisant une dimension interne de pensée progressive et séparée, le timing au niveau du neurone individuel et la synchronisation elle-même comme représentation pour résoudre les tâches

Méthode

Vue d’ensemble de l’architecture

  • CTM est une architecture dans laquelle l’activité neuronale se déploie en interne à partir des données
  • À chaque étape, l’historique des pre-activation est collecté puis envoyé au Neuron Level Model (NLM)
  • À partir des historiques de post-activation de plusieurs neurones, une matrice de synchronisation neuronale est calculée afin de produire une puissante représentation de synchronisation
  • Cette représentation de synchronisation sert de vecteur latent central pour l’observation et la prédiction du modèle

Structure détaillée

1. Internal recurrence (récurrence interne)

  • Une dimension de récurrence interne est utilisée afin de réserver un axe distinct où le déroulement de la pensée peut se développer
  • Chaque tick interne fonctionne comme une unité de pensée autonome, indépendamment des séries temporelles externes

2. Neuron-level models (modèles au niveau du neurone)

  • Chaque neurone possède une structure MLP personnalisée et reçoit en entrée un court historique de pre-activation pour produire une post-activation

3. Synchronization as representation (la synchronisation comme représentation)

  • Une matrice de synchronisation neuronale est calculée à partir de toutes les post-activation sur une certaine période, et sert de représentation latente / vecteur d’action central

Relation avec les données d’entrée

  • Les données utilisent de manière complémentaire un traitement centré sur la récurrence interne et la synchronisation
  • L’observation et la prédiction des données d’entrée dépendent de l’état de synchronisation

Internal ticks : dimension de pensée

  • CTM possède sa propre timeline de pensée et met à jour puis affine l’information de façon répétée en interne, indépendamment de l’ordre des données
  • C’est dans cette dimension que l’activité intelligente se déploie

Recurrent weights : synapses

  • Un MLP de style U-NET produit les pre-activation et conserve les M dernières valeurs
  • Chaque neurone utilise un MLP individuel pour recevoir un vecteur d’historique (série temporelle de pre-activation) et produire la post-activation

Synchronization as a representation

  • Le modèle interagit avec l’extérieur via une matrice de synchronisation entre neurones
  • Les valeurs de synchronisation sont utilisées directement comme indicateurs d’action réels (sortie, observation, attention query, etc.)
  • À mesure que la largeur du modèle D augmente, la capacité de représentation et la quantité d’information augmentent de façon quadratique
  • Combinée à des modules de données d’entrée comme l’attention, cette approche montre une capacité de traitement de l’information encore plus puissante

Fonction de perte

  • À chaque tick interne, le modèle produit une sortie et calcule la loss ainsi que le niveau de confiance (1 - entropie normalisée) correspondant
  • La loss globale agrège dynamiquement le moment de perte minimale et le moment de confiance maximale, afin d’encourager un apprentissage adaptatif selon la difficulté du problème

Expérience : ImageNet

Démonstrations

  • CTM effectue ses prédictions sur des données d’image en exploitant diverses attention heads et la synchronisation neuronale
  • La précision, la calibration et différents indicateurs selon les seuils de confiance sont visualisés

Résultats

  • Grâce à l’adaptive compute, CTM ajuste ses étapes de pensée, et l’on observe qu’au-delà d’un certain nombre d’étapes, le bénéfice supplémentaire devient limité
  • 16 attention heads sont visualisées avec, à chaque étape, les prédictions de classe, la précision et l’activité neuronale

Discussion

  • CTM met l’accent sur une interaction intuitive et flexible avec les données
  • Grâce à une représentation fondée sur la synchronisation neuronale, il se distingue clairement des approches existantes, y compris en vision
  • Cela suggère que la dimension TIME est fondamentalement liée à la manière dont les humains traitent l’information

Expérience : résolution de labyrinthes 2D

Le pourquoi et le comment

  • La résolution de labyrinthes 2D est une tâche très difficile pour les modèles neuronaux sans outil dédié
  • CTM est entraîné en prédiction directe de trajectoire (L/R/U/D/W), et ses motifs d’attention coïncident volontairement avec le chemin réel
  • Lors des tests de généralisation, il résout avec une grande précision et une forte généralisation des labyrinthes longs et complexes

Résultats et discussion

  • CTM affiche des performances écrasantes par rapport aux baselines, même sur les chemins les plus longs
  • Il forme un world model interne stratégique, proche de l’humain, ce qui indique une véritable capacité de reasoning plutôt qu’une simple mémorisation

Un world model

  • Même sans position encoding, il résout le problème en construisant un modèle interne de l’environnement à partir des seules informations visuelles

Expérience : Parité

  • Le modèle est entraîné à prédire une parité imbriquée de séquences binaires (somme paire/impaire) avec l’ensemble de l’entrée fourni
  • Avec plus de 75 ticks internes de pensée, CTM peut atteindre 100 % de précision
  • LSTM devient instable à l’apprentissage lorsque le nombre de ticks internes de pensée augmente

Apprentissage d’algorithmes séquentiels

  • À travers le mouvement des attention heads et les motifs d’activation neuronale, on observe que CTM apprend séparément des stratégies de parcours des données en sens inverse et en sens direct
  • Cela constitue une preuve de ses capacités de planification stratégique (Planning) et d’exécution par étapes

Expérience : Q&A MNIST

Mémoire via la synchronisation

  • La tâche MNIST Q&A sert à tester les capacités de CTM en mémoire à long terme et en rappel
  • Même lorsque l’image d’entrée sort de la fenêtre d’historique des activations neuronales, le modèle conserve et récupère l’information de mémoire à long terme via la synchronisation

Résultats et généralisation

  • Les performances s’améliorent à mesure que le nombre de ticks internes de pensée augmente, avec une excellente capacité de généralisation à des questions plus complexes et plus longues
  • LSTM devient instable avec davantage de ticks, tandis que CTM apprend et infère de manière constante

Expériences supplémentaires

CTM versus humains

  • Comparaison des performances sur CIFAR-10 entre humains, modèle feedforward, LSTM et CTM
  • En matière de calibration (adéquation des prédictions probabilistes), CTM surpasse les humains
  • Les dynamiques de synchronisation neuronale révèlent des caractéristiques internes très variées et complexes, à l’opposé des approches classiques

CIFAR-100, études d’ablation

  • Plus la largeur du modèle augmente, plus on observe une hausse de la diversité et des dynamiques neuronales
  • Selon le nombre de ticks internes, des processus de pensée internes différents selon les problèmes apparaissent, avec une distribution « à deux pics »

Tri de nombres réels

  • Dans une expérience de tri de 30 nombres réels, CTM montre un comportement émergent où le temps de calcul interne (ticks d’attente) varie selon la distance ou l’écart entre les valeurs

Reinforcement Learning

  • Dans des environnements de RL comme MiniGrid et CartPole, CTM utilise des unités internes de pensée continue pour interagir avec l’environnement et prendre des décisions de politique
  • Il affiche des performances finales comparables à celles de LSTM, tout en démontrant l’efficacité d’un enregistrement continu de la pensée

Conclusion

  • CTM réalise d’une manière inédite la fusion entre plausibilité biologique et efficacité de l’IA
  • Grâce à l’introduction de modèles au niveau du neurone et d’un nouveau mode de représentation fondé sur la synchronisation neuronale, il concrétise des capacités de représentation inédites
  • Il montre une cohérence architecturale et une forte adaptabilité sur des tâches variées comme la classification d’images, la résolution de labyrinthes, la mémoire, le tri et le RL
  • Il met en évidence la synergie entre neurosciences et machine learning, ainsi que l’importance de concevoir des machines à penser centrées sur le temps et la synchronisation

1 commentaires

 
GN⁺ 2025-05-13
Avis Hacker News
  • Ce qui m’inquiète dans cet article, c’est que, malgré l’existence déjà très abondante de travaux en apprentissage automatique sur les réseaux neuronaux impulsionnels biologiquement plausibles et sur les réseaux neuronaux artificiels dépendants du temps, la terminologie et l’approche de l’article donnent l’impression de ne pas vraiment reconnaître cet énorme corpus de travaux antérieurs, en particulier le fait d’appeler l’étape d’intégration synaptique « pensée » (thinking), ce qui peut semer la confusion, car la pensée, au sens ordinaire, est un processus itératif de génération, d’évaluation et de révision d’idées, alors qu’ici le terme est appliqué au niveau d’un processus d’unité unique, ce qui est aussi très éloigné de la terminologie habituelle des ANN ou du machine learning, cette désignation de « pensée » ne me paraît pas appropriée, je n’ai pas passé en revue toutes les références et je réagis simplement à chaud à partir de formulations qui me sont familières dans ce courant de recherche

    • Désolé, je voulais initialement répondre à ce commentaire, mais j’ai finalement laissé une réponse distincte dans le fil du commentaire parent, la tentative de l’article d’imiter des réseaux impulsionnels biologiques me semble assez lâche, et sa contribution principale est en réalité l’usage du produit scalaire avec la transposée de la matrice de sortie, le reste relevant de techniques de diffusion/attention appliquées à l’entrée, c’est une forme de modèle récursif en cascade combinant attention d’entrée et attention de sortie
    • J’ai l’impression que, depuis 10 à 20 ans, les chercheurs en apprentissage automatique qui reconnaissent les travaux en neurosciences se font souvent accuser d’esbroufe, donc cela ne me surprend pas vraiment
    • L’article est présenté comme s’il s’agissait d’une idée nouvelle, mais il ne mentionne pratiquement pas des décennies de recherche sur les réseaux neuronaux impulsionnels ou des domaines voisins
    • Je serais reconnaissant si quelqu’un pouvait partager une liste, ou un bref aperçu, des livres ou articles qu’il juge les plus éclairants sur les concepts et les implémentations d’algorithmes inspirés de la biologie
    • Les auteurs précisent qu’ils n’appellent pas une intégration synaptique unique une « pensée », mais qu’ils emploient ce terme pour la boucle interne de l’ensemble du réseau, décrite comme des « ticks internes » pour chaque entrée externe, et ils écrivent explicitement que c’est analogue à une « pensée »
    • Je me demande si cet article a été écrit par Jürgen Schmidhuber
  • Je suis très heureux qu’on se reconcentre sur ce sujet important, dans le contexte du cerveau biologique et du corps, il est facile de penser le « temps » comme un temps newtonien linéaire, mais l’essentiel dans un système cerveau-corps est de créer des séquences ordonnées de comportement et de calcul à travers différents fragments de « présent », du « présent représenté » de 300 ms jusqu’aux 50 microsecondes de cellules qui évaluent la localisation d’un son, pour en savoir plus sur cette temporalité conditionnelle (temporality), on peut consulter un article récent de l’European Journal of Neuroscience où John Bickle interviewe RW Williams

  • Mon impression après lecture est que l’article n’a en fait rien à voir avec des réseaux biologiques ou impulsionnels, il conserve un historique des entrées et utilise une attention multi-tête pour construire un modèle interne de la façon dont les entrées « pré-synaptiques » passées se reflètent dans la sortie actuelle, cela ressemble à un transformeur légèrement modifié qui conserve l’historique des entrées et produit une sortie par attention, la « synchronisation » aussi est obtenue en faisant le produit interne de toutes les post-activations, puis en projetant la matrice résultante dans l’espace de sortie, comme plusieurs sorties doivent être multipliées pour produire la bonne valeur à chaque pas de temps, j’imagine que c’est pour cela qu’ils appellent cette combinaison une « synchronisation », cela ressemble à une forme d’induction de « parcimonie » mettant en avant l’importance de la combinaison de plusieurs valeurs de sortie dans une matrice plutôt que l’individualité de chaque valeur, c’est le mécanisme de base de l’attention qui combine les sorties de plusieurs sous-systèmes via leur produit interne

    • La faiblesse de l’article est que les comparaisons de performance se limitent aux LSTM, j’ai l’impression qu’avec plusieurs couches d’attention en entrée/sortie on pourrait obtenir une structure et des performances similaires, les transformeurs réels sont un peu différents, mais il n’y a pas de grande différence avec la structure input attention + unet utilisée dans l’article
  • Trois choses intéressantes ce week-end : 1) des machines à pensée continue (des réseaux neuronaux à encodage temporel ressemblant à des cerveaux biologiques), 2) le « zero data reasoning » (une IA qui apprend par l’action directe au lieu d’être préentraînée sur des masses de données), 3) Intellect-2 (une architecture d’apprentissage par renforcement distribuée à l’échelle mondiale), vu de l’extérieur, on a l’impression de se rapprocher d’un pas de plus de la singularité (singularity)

    • Je n’ai pas du tout cette impression, avec tant d’articles et de directions de recherche différentes, il est difficile de prévoir lesquelles auront l’impact de diffusion, transformer, AlphaZero, Chat GPT-3, etc., même quand cela semble être une avancée radicale, ce type de progrès résulte d’une accumulation de nombreux travaux et essais-erreurs, j’aimerais que ces trois avancées puissent bien se combiner, mais je n’en sais rien
    • Je pense qu’il vaut mieux ne pas attribuer trop d’importance à un article isolé, au mieux on finit par ignorer une grande quantité de travaux fondamentaux, au pire on nourrit des attentes excessives autour d’une seule idée
    • Intellect-2 et zero data reasoning sont tous deux des architectures fonctionnant sur des LLM (le nom « zero data reasoning » peut d’ailleurs être trompeur), si l’on veut une vraie innovation côté LLM, il vaut mieux regarder comment InceptionLabs a multiplié par 16 l’inférence avec un modèle de diffusion, les performances de nos algorithmes d’apprentissage par renforcement en série temporelle restent très inférieures à celles des modèles d’inférence, et malgré le boom de l’IA, la robotique et la conduite autonome restent toujours bloquées, cette technique de l’article a peut-être du potentiel, mais ce serait mieux si quelqu’un affinait un peu la terminologie pour la rendre plus digeste, pour l’instant j’ai l’impression qu’on est encore loin d’une IA réellement utile dans de nombreux domaines, notamment parce que plus les modèles sont grands, plus ils trouvent bien les failles des fonctions de récompense
    • Quand on exécute réellement l’implémentation d’un article, les résultats sont souvent moins bons que ce qui est mis en avant dans le papier, ou bien il manque du code, pour ne pas se laisser emporter par le battage autour de l’IA, il faut prendre l’habitude de lire les résultats concrets et les limites des articles, de télécharger et d’exécuter le code quand il existe, et aussi de tester sur des entrées hors jeu d’entraînement
    • Je ne suis pas expert non plus, mais cela me fait penser à quelqu’un qui conclurait que les robots vont bientôt dominer le monde simplement parce qu’on a inventé la caméra, les actionneurs et la batterie, autrement dit, cela ressemble plus à un petit pas qu’à un saut
    • Les critiques ne sont pas pour autant balayées, on peut tout à fait contester l’idée que certains articles ou projets très médiatisés constituent à eux seuls une avancée décisive vers le take-off ou l’AGI, mais ces articles peuvent aussi être les représentants d’une direction de recherche bien plus large, disons qu’on a l’impression d’un « bébé lapin » qui continue à faire de petits bonds dans une direction cohérente, le moment où l’on décide d’appeler cela un saut dépend du point de vue, mais dans tous les cas, le lapin avance
  • Mettre en œuvre des mécanismes de codage temporel comme le spike timing et la synchronisation est très difficile, c’est pourquoi les réseaux neuronaux modernes privilégient la simplicité et l’efficacité de calcul plutôt que la dynamique temporelle, simuler un vrai domaine temporel est aussi un problème très difficile du point de vue matériel, en particulier parce que cela ajoute un axe distinct d’hyperparamètres, ce qui rend presque impossible la recherche de combinaisons valides, comme il est bien plus rapide de trouver des architectures efficaces en calcul, dès qu’on laisse des spikes se produire à des pas de temps futurs, on introduit des structures événementielles de type file de priorité et la charge de calcul explose, si l’objectif est vraiment l’« interaction hard realtime », peut-être, mais d’un point de vue pratique et produit, je ne vois pas beaucoup d’intérêt à poursuivre ce type d’architecture, le fait que le STDP (modification des poids selon l’écart temporel des spikes) permette un apprentissage en ligne non supervisé reste très séduisant, mais à court terme cela ne semble pas avoir de voie réaliste sur silicium, utiliser du matériel dédié revient à figer une partie des hyperparamètres comme des constantes dans le code, ce qui ne garantit pas vraiment la robustesse et laisse aussi moins de marge de financement

    • Par exemple, si une architecture FF de taille moyenne met 100 ms à traiter un lot d’entrées, que se passe-t-il si, dans une structure CTM, on consacre 10 ms à l’axe FF puis qu’on multiplie cela par 10 « ticks » internes ?, les chiffres sont approximatifs, mais au fond la question est de savoir si ce biais inductif explicite sur l’axe temporel apporte vraiment quelque chose, je me demande si une telle architecture n’aurait pas la même difficulté de recherche
  • L’idée de ces machines n’est pas complètement nouvelle, un article de 2002 a présenté les Liquid State Machines (LSM), qui alimentent un réseau neuronal impulsionnel avec des entrées continues puis lisent le liquid state via une couche dense connectée à tous les neurones du réseau, un article de 2019 a utilisé les LSM pour jouer à des jeux Atari, dépassant parfois les humains sans que ce soit systématique, et a aussi constaté des échecs similaires à ceux des réseaux neuronaux classiques, les performances n’étaient pas particulièrement supérieures à celles des réseaux neuronaux traditionnels, j’aimerais voir davantage de recherche sur des réseaux neuronaux qui traitent des entrées continues (par exemple l’audio), produisent des sorties en continu et n’appliquent que des principes de plasticité du cerveau, sans rétropropagation, j’ai moi-même essayé, mais soit nous ne comprenons pas encore assez bien le fonctionnement du cerveau, soit je n’ai pas encore trouvé la bonne réponse

  • Ironiquement, cette page web se recharge sans arrêt sur firefox iOS

    • Chez moi, elle ne s’ouvre même pas
  • Le cœur des modèles de prochaine génération sera le principe « neurons that fire together wire together », je pense que les réseaux neuronaux impulsionnels offrent une approche alternative très intéressante