Modèle de raisonnement hiérarchique
(arxiv.org)- Le modèle de raisonnement hiérarchique (Hierarchical Reasoning Model, HRM) surmonte les limites des techniques de Chain-of-Thought basées sur les LLM dans l’exécution de comportements complexes orientés vers un objectif, notamment la décomposition instable des tâches, les besoins élevés en données et les problèmes de latence
- Inspiré du concept de traitement hiérarchique du cerveau humain, HRM introduit une nouvelle structure récurrente composée d’un module de haut niveau chargé de la planification abstraite et d’un module de bas niveau qui traite rapidement les opérations détaillées
- HRM affiche d’excellentes performances sur des problèmes de raisonnement difficiles avec seulement environ 27 millions de paramètres et 1 000 exemples d’entraînement
- Sans préentraînement ni données Chain-of-Thought, il atteint une précision presque parfaite sur des tâches comme des Sudoku complexes et la recherche de chemin optimal dans de grands labyrinthes
- HRM montre une efficacité et des performances supérieures à celles des grands modèles existants et laisse entrevoir un possible tournant pour le calcul généraliste et les systèmes d’intelligence générale
Vue d’ensemble
Dans le domaine de l’IA, le raisonnement (reasoning) est un enjeu central, car il correspond au processus de conception et d’exécution de comportements complexes orientés vers un but. Les grands modèles de langage (LLM) existants utilisent principalement la technique du Chain-of-Thought (CoT), mais celle-ci présente des limites comme une décomposition fragile des tâches, des besoins importants en données et une forte latence.
- Le Hierarchical Reasoning Model (HRM) est proposé en s’inspirant de la structure hiérarchique et multi-échelle temporelle du traitement cérébral humain
- HRM se compose de deux modules récurrents dépendants (haut niveau / bas niveau), qui effectuent un raisonnement séquentiel en un seul passage forward sans supervision explicite des étapes intermédiaires
- Avec 27 millions de paramètres, il atteint des performances de pointe en n’utilisant que 1 000 échantillons
Limites structurelles du deep learning et des LLM actuels
- Le deep learning a d’abord progressé en augmentant la profondeur des réseaux pour accroître la capacité de représentation, mais les LLM basés sur Transformer ont en pratique une structure peu profonde, ce qui impose des limites de profondeur
- Les Transformers à profondeur fixe font face à des contraintes fondamentales de complexité de calcul sur les problèmes de raisonnement logique complexe ou algorithmiques
- Le Chain-of-Thought repose sur une décomposition étape par étape en langage naturel définie par l’humain, si bien qu’une erreur ou un mauvais ordre peut facilement faire s’effondrer tout le raisonnement
- Le CoT pose aussi des problèmes de fort besoin en données, de génération de nombreux tokens et de lenteur d’exécution
Principes de conception de HRM
Conçu pour imiter le traitement hiérarchique et multi-échelle temporelle du cerveau humain
- Traitement hiérarchique : le cerveau traite l’information de manière hiérarchique et temporellement distincte entre niveaux supérieurs et inférieurs
- Séparation des échelles temporelles : les régions supérieures fonctionnent lentement, tandis que les régions inférieures fonctionnent rapidement, ce qui permet un guidage efficace
- Connexions récurrentes : grâce à un feedback inverse répété, le modèle affine ses représentations internes et réalise ainsi un raisonnement profond
Architecture du modèle HRM
- Composé d’un réseau d’entrée, d’un module récurrent de bas niveau, d’un module récurrent de haut niveau et d’un réseau de sortie
- L’entrée est projetée sous forme de vecteur
- Le module de bas niveau est mis à jour plusieurs fois à partir de son état précédent, de l’état courant du module de haut niveau et de l’entrée
- Le module de haut niveau ne se met à jour qu’une fois à la fin de chaque cycle, en recevant l’état final du module de bas niveau
- Enfin, la prédiction est produite à partir de l’état du module de haut niveau
Mécanisme de convergence hiérarchique (hierarchical convergence)
- Les RNN traditionnels convergent trop rapidement, ce qui peut rendre les calculs supplémentaires inutiles
- Dans HRM, le RNN de bas niveau converge de façon stable vers un point d’équilibre local à chaque cycle, puis le module de haut niveau fournit un nouveau contexte qui relance le module de bas niveau
- Cette structure de convergence hiérarchique permet des calculs profonds (avec de nombreuses étapes) tout en contrôlant convenablement la vitesse de convergence
Apprentissage du gradient par approximation en 1 étape
- S’appuyer sur le BPTT (Backpropagation Through Time) impose de stocker les états de nombreuses étapes, ce qui entraîne une forte charge mémoire
- HRM apprend en approximant le gradient à partir du seul état final dans chacun des modules haut niveau / bas niveau, ce qui permet de maintenir une utilisation mémoire en O(1) et de mettre en œuvre une approche plus réaliste biologiquement
- Mathématiquement, cela repose sur le principe du Deep Equilibrium Model (DEQ)
Deep supervision & temps de calcul adaptatif (ACT)
Deep supervision
- Le modèle fournit un feedback périodique, produit une sortie à chaque forward pass (segment) et calcule séparément la perte d’apprentissage de chaque segment
- Lors du passage au segment suivant, l’état est détaché du graphe afin d’améliorer la stabilité et les performances de la structure récurrente profonde
Temps de calcul adaptatif (ACT)
- En introduisant le principe de bascule entre pensée automatique et délibérée chez l’humain, le modèle détermine dynamiquement, via le Q-learning, le nombre de répétitions de segments pendant l’apprentissage
- Une Q-head prédit la Q-value de l’action halt/continue à chaque segment
- Le Q-learning calcule la perte globale en tenant compte simultanément de la précision de la prédiction et du point d’arrêt optimal
Performances et caractéristiques architecturales
-
Sur Sudoku-Extreme (9x9), de grands labyrinthes (30x30) et d’autres problèmes où les modèles CoT existants échouaient, HRM résout presque parfaitement les tâches avec environ 1 000 exemples
-
Sur le benchmark ARC-AGI (Abstraction and Reasoning Corpus), il atteint 40,3 % avec seulement 27M de paramètres (contre 34,5 % pour le modèle CoT o3-mini-high et 21,2 % pour Claude 3.7 8K)
-
À l’inférence, il est possible d’améliorer encore les performances simplement en augmentant le nombre d’étapes de calcul, sans modification supplémentaire de l’architecture ni réentraînement, ce qui permet d’exploiter davantage les ressources de calcul
-
HRM utilise en interne une architecture sequence-to-sequence basée sur Transformer, avec :
- après la couche d’embedding, les modules de bas niveau et de haut niveau utilisent tous deux des blocs Transformer encoder-only
- application de fonctionnalités des LLM modernes (Rotary Positional Encoding, Gated Linear Units, RMSNorm, etc.)
- paramètres initialisés avec une méthode truncated LeCun Normal, et utilisation de l’optimiseur Adam-atan2 avec un learning rate fixe
Conclusion
- HRM démontre qu’une structure récurrente hiérarchique inspirée de la biologie et des méthodes d’apprentissage efficaces et profondes peuvent offrir, avec peu de données et peu de paramètres, des capacités de raisonnement général supérieures aux approches existantes
- Il constitue un exemple important du potentiel d’évolution vers des systèmes de calcul généraliste et d’intelligence dépassant les limites de profondeur du deep learning et des LLM
1 commentaires
Avis Hacker News
En survolant rapidement le résumé et l’introduction, les résultats du modèle de raisonnement hiérarchique (HRM) paraissent vraiment surprenants
Je suis très sceptique sur le fait qu’un modèle de 27M de paramètres soit entraîné « à partir de zéro » avec seulement 1 000 points de données
Exactement !
« Après la fin de l’étape T, le module supérieur (module H) récupère l’état résultant du module inférieur pour effectuer une mise à jour, en relançant alors le chemin de calcul du module inférieur et en induisant une nouvelle phase de convergence »
Dès que j’ai lu cette séparation de structure hlm/llm, ça m’a fait penser au cerveau humain
Il faut garder un point de vue sceptique
Le code des auteurs est publié sur https://github.com/sapientinc/HRM
Dans les articles de machine learning, un scepticisme sain est indispensable
Je pense que la meilleure façon d’exercer un scepticisme sérieux, c’est de faire des expériences de reproduction et de comparer les résultats
Ce serait prématuré de juger uniquement parce qu’il n’y a pas encore eu de peer review
Attendre un peer review juste après la publication du papier donne l’impression de mal comprendre le processus
En tant que psychologue cognitiviste, je pense depuis longtemps qu’il faut globalement aller dans cette direction en IA
Si j’ai bien compris, HRM regarde 1 000 paires Sudoku (grille, solution) et apprend de lui-même les règles
Ensuite, il peut résoudre de nouvelles grilles jamais vues avec 55 % de précision
En l’entraînant sur un million d’exemples, il devient presque parfait
Le fait qu’il n’y ait aucun préentraînement est étonnant
À l’inverse, AlphaZero a les règles (échecs, go) codées en dur et n’apprend que la stratégie, alors que HRM apprend aussi les règles elles-mêmes
Je compte aller vérifier directement dans le dépôt GitHub
AlphaZero a les règles codées en dur, mais MuZero et les modèles suivants fonctionnent sans cela
Après avoir testé directement avec le code source :
pyproject.tomlserait encore mieux)(donc pas vraiment seulement 1 000)
J’attends avec intérêt, et avec une légère inquiétude, de voir si le modèle HRM sera bientôt combiné à du MoE (Mixture of Experts)
La pression économique pour rendre les LLM plus puissants est très forte, donc je pense qu’un tel couplage pourrait arriver en quelques mois
L’article ne traite que de puzzles comme le Sudoku, pas de question-réponse ni des principales applications des LLM
Je trouve dommage qu’il ne discute pas d’une intégration avec la prochaine génération de LLM
Le MoE est lié aux clusters conceptuels, mais à l’avenir il faudra aussi inclure dans l’espace latent la profondeur des concepts, le nombre de niveaux hiérarchiques, le temps d’apprentissage, etc., un peu comme notre manière de lire change selon qu’on lit un manuel de mathématiques ou un court article
HRM est conçu pour des puzzles où un petit nombre de règles s’imbriquent de façon complexe
Le fait qu’il y ait peu de discussion sur d’autres applications que le Sudoku, ou sur les limites du modèle, me rend aussi un peu méfiant
En parcourant l’article, j’ai l’impression qu’un système de LLM MoE (autorégressif, à diffusion, à base d’énergie, peu importe l’approche) pourrait lui aussi empiler des hiérarchies à la manière de HRM
J’apprécie le fait que l’approche soit inspirée des neurosciences, et rien dans l’article ne me paraît particulièrement problématique à première vue
Je n’ai pas encore fait d’expérience de réplication moi-même, mais ce que les auteurs ont construit ressemble au minimum à un solveur de problèmes de satisfaction de contraintes potentiellement plus générique
C’est un système qui apprend les règles de contrainte elles-mêmes à partir de peu d’exemples, et si c’est vrai, c’est déjà très intéressant en soi
En revanche, la comparaison directe avec les modèles CoT ne me semble pas très convaincante
Les modèles CoT peuvent en principe résoudre n’importe quel problème complexe, mais HRM doit être réentraîné séparément pour chaque puzzle spécialisé, donc il est difficile de revendiquer une vraie généralité
Par exemple, le fait que le moteur d’échecs Stockfish joue mieux aux échecs qu’un LLM ne signifie pas pour autant que Stockfish soit plus « intelligent »
C’est une bonne idée, mais j’ai senti un léger excès marketing dans l’article
D’accord ! Et en réalité, rien que cela constitue déjà une énorme réussite
Tu dis que les modèles CoT peuvent, par nature, résoudre n’importe quelle tâche complexe ; j’aimerais bien savoir sur quoi cela repose
Si cet article dit vrai, son impact serait énorme, donc je continue de le suivre de près