Modèle de raisonnement hiérarchique

(arxiv.org)

6 points par GN⁺ 2025-07-28 | 1 commentaires | Partager sur WhatsApp

Le modèle de raisonnement hiérarchique (Hierarchical Reasoning Model, HRM) surmonte les limites des techniques de Chain-of-Thought basées sur les LLM dans l’exécution de comportements complexes orientés vers un objectif, notamment la décomposition instable des tâches, les besoins élevés en données et les problèmes de latence
Inspiré du concept de traitement hiérarchique du cerveau humain, HRM introduit une nouvelle structure récurrente composée d’un module de haut niveau chargé de la planification abstraite et d’un module de bas niveau qui traite rapidement les opérations détaillées
HRM affiche d’excellentes performances sur des problèmes de raisonnement difficiles avec seulement environ 27 millions de paramètres et 1 000 exemples d’entraînement
Sans préentraînement ni données Chain-of-Thought, il atteint une précision presque parfaite sur des tâches comme des Sudoku complexes et la recherche de chemin optimal dans de grands labyrinthes
HRM montre une efficacité et des performances supérieures à celles des grands modèles existants et laisse entrevoir un possible tournant pour le calcul généraliste et les systèmes d’intelligence générale

Vue d’ensemble

Dans le domaine de l’IA, le raisonnement (reasoning) est un enjeu central, car il correspond au processus de conception et d’exécution de comportements complexes orientés vers un but. Les grands modèles de langage (LLM) existants utilisent principalement la technique du Chain-of-Thought (CoT), mais celle-ci présente des limites comme une décomposition fragile des tâches, des besoins importants en données et une forte latence.

Le Hierarchical Reasoning Model (HRM) est proposé en s’inspirant de la structure hiérarchique et multi-échelle temporelle du traitement cérébral humain
HRM se compose de deux modules récurrents dépendants (haut niveau / bas niveau), qui effectuent un raisonnement séquentiel en un seul passage forward sans supervision explicite des étapes intermédiaires
Avec 27 millions de paramètres, il atteint des performances de pointe en n’utilisant que 1 000 échantillons

Limites structurelles du deep learning et des LLM actuels

Le deep learning a d’abord progressé en augmentant la profondeur des réseaux pour accroître la capacité de représentation, mais les LLM basés sur Transformer ont en pratique une structure peu profonde, ce qui impose des limites de profondeur
Les Transformers à profondeur fixe font face à des contraintes fondamentales de complexité de calcul sur les problèmes de raisonnement logique complexe ou algorithmiques
Le Chain-of-Thought repose sur une décomposition étape par étape en langage naturel définie par l’humain, si bien qu’une erreur ou un mauvais ordre peut facilement faire s’effondrer tout le raisonnement
Le CoT pose aussi des problèmes de fort besoin en données, de génération de nombreux tokens et de lenteur d’exécution

Principes de conception de HRM

Conçu pour imiter le traitement hiérarchique et multi-échelle temporelle du cerveau humain

Traitement hiérarchique : le cerveau traite l’information de manière hiérarchique et temporellement distincte entre niveaux supérieurs et inférieurs
Séparation des échelles temporelles : les régions supérieures fonctionnent lentement, tandis que les régions inférieures fonctionnent rapidement, ce qui permet un guidage efficace
Connexions récurrentes : grâce à un feedback inverse répété, le modèle affine ses représentations internes et réalise ainsi un raisonnement profond

Architecture du modèle HRM

Composé d’un réseau d’entrée, d’un module récurrent de bas niveau, d’un module récurrent de haut niveau et d’un réseau de sortie
L’entrée est projetée sous forme de vecteur
Le module de bas niveau est mis à jour plusieurs fois à partir de son état précédent, de l’état courant du module de haut niveau et de l’entrée
Le module de haut niveau ne se met à jour qu’une fois à la fin de chaque cycle, en recevant l’état final du module de bas niveau
Enfin, la prédiction est produite à partir de l’état du module de haut niveau

Mécanisme de convergence hiérarchique (hierarchical convergence)

Les RNN traditionnels convergent trop rapidement, ce qui peut rendre les calculs supplémentaires inutiles
Dans HRM, le RNN de bas niveau converge de façon stable vers un point d’équilibre local à chaque cycle, puis le module de haut niveau fournit un nouveau contexte qui relance le module de bas niveau
Cette structure de convergence hiérarchique permet des calculs profonds (avec de nombreuses étapes) tout en contrôlant convenablement la vitesse de convergence

Apprentissage du gradient par approximation en 1 étape

S’appuyer sur le BPTT (Backpropagation Through Time) impose de stocker les états de nombreuses étapes, ce qui entraîne une forte charge mémoire
HRM apprend en approximant le gradient à partir du seul état final dans chacun des modules haut niveau / bas niveau, ce qui permet de maintenir une utilisation mémoire en O(1) et de mettre en œuvre une approche plus réaliste biologiquement
Mathématiquement, cela repose sur le principe du Deep Equilibrium Model (DEQ)

Deep supervision & temps de calcul adaptatif (ACT)

Deep supervision

Le modèle fournit un feedback périodique, produit une sortie à chaque forward pass (segment) et calcule séparément la perte d’apprentissage de chaque segment
Lors du passage au segment suivant, l’état est détaché du graphe afin d’améliorer la stabilité et les performances de la structure récurrente profonde

Temps de calcul adaptatif (ACT)

En introduisant le principe de bascule entre pensée automatique et délibérée chez l’humain, le modèle détermine dynamiquement, via le Q-learning, le nombre de répétitions de segments pendant l’apprentissage
Une Q-head prédit la Q-value de l’action halt/continue à chaque segment
Le Q-learning calcule la perte globale en tenant compte simultanément de la précision de la prédiction et du point d’arrêt optimal

Performances et caractéristiques architecturales

Sur Sudoku-Extreme (9x9), de grands labyrinthes (30x30) et d’autres problèmes où les modèles CoT existants échouaient, HRM résout presque parfaitement les tâches avec environ 1 000 exemples
Sur le benchmark ARC-AGI (Abstraction and Reasoning Corpus), il atteint 40,3 % avec seulement 27M de paramètres (contre 34,5 % pour le modèle CoT o3-mini-high et 21,2 % pour Claude 3.7 8K)
À l’inférence, il est possible d’améliorer encore les performances simplement en augmentant le nombre d’étapes de calcul, sans modification supplémentaire de l’architecture ni réentraînement, ce qui permet d’exploiter davantage les ressources de calcul
HRM utilise en interne une architecture sequence-to-sequence basée sur Transformer, avec :
- après la couche d’embedding, les modules de bas niveau et de haut niveau utilisent tous deux des blocs Transformer encoder-only
- application de fonctionnalités des LLM modernes (Rotary Positional Encoding, Gated Linear Units, RMSNorm, etc.)
- paramètres initialisés avec une méthode truncated LeCun Normal, et utilisation de l’optimiseur Adam-atan2 avec un learning rate fixe

Conclusion

HRM démontre qu’une structure récurrente hiérarchique inspirée de la biologie et des méthodes d’apprentissage efficaces et profondes peuvent offrir, avec peu de données et peu de paramètres, des capacités de raisonnement général supérieures aux approches existantes
Il constitue un exemple important du potentiel d’évolution vers des systèmes de calcul généraliste et d’intelligence dépassant les limites de profondeur du deep learning et des LLM

1 commentaires

GN⁺ 2025-07-28

Avis Hacker News

En survolant rapidement le résumé et l’introduction, les résultats du modèle de raisonnement hiérarchique (HRM) paraissent vraiment surprenants
- Il est impressionnant que HRM parvienne à résoudre des problèmes que même les LLM les plus avancés à ce jour ne savent pas traiter, en n’utilisant que 1 000 exemples entrée-sortie, sans préentraînement ni supervision Chain-of-Thought (CoT)
- Par exemple, il atteint une précision presque parfaite sur des Sudoku complexes (Extreme Full) et sur la recherche du chemin optimal dans des labyrinthes 30x30 (l’approche CoT y reste à 0 % de précision)
- Sur le challenge AGI de l’Abstraction and Reasoning Corpus (ARC), HRM obtient aussi 40,3 % avec 27M de paramètres et une grille 30x30 (900 tokens), dépassant des modèles bien plus grands (o3-mini-high, Claude 3.7 8K, etc.)
- J’ai bien l’intention de lire cet article attentivement
Je suis très sceptique sur le fait qu’un modèle de 27M de paramètres soit entraîné « à partir de zéro » avec seulement 1 000 points de données
- Je ne comprends pas non plus pourquoi ils ne le comparent pas à d’autres modèles entraînés dans les mêmes conditions (avec la même préparation des données)
- À la place, ils ne le comparent qu’à des LLM génériques externes, qui n’ont peut-être jamais vu ces 1 000 exemples à l’entraînement
- Cette approche donne quand même une impression d’overfitting
Exactement !
- HRM utilise deux modules récurrents interdépendants (module supérieur : planification abstraite et lente ; module inférieur : calcul rapide et détaillé)
- Grâce à cette structure, HRM dispose d’une vraie profondeur de calcul avec peu de paramètres (27 millions) et un petit dataset (~1 000 exemples)
- HRM dépasse les modèles CoT de pointe sur des benchmarks difficiles (Extreme Sudoku, Maze-Hard, ARC-AGI)
- Par exemple, 96 % de précision sur Sudoku, et 40,3 % sur ARC-AGI-2, devant même de grands modèles comme Claude 3.7 ou DeepSeek R1
- Il va falloir expliquer comment on obtient de tels résultats... je vais devoir l’exécuter moi-même sur mon ordinateur
« Après la fin de l’étape T, le module supérieur (module H) récupère l’état résultant du module inférieur pour effectuer une mise à jour, en relançant alors le chemin de calcul du module inférieur et en induisant une nouvelle phase de convergence »
- Une fois que le RNN inférieur a terminé son calcul, le module supérieur évalue le résultat, donne un nouveau contexte au RNN inférieur, puis la boucle recommence
- Le RNN inférieur effectue un apprentissage itératif par backpropagation, et le module supérieur intervient périodiquement pour l’ajuster jusqu’à obtenir une meilleure sortie
- « Des preuves en neurosciences suggèrent que ces modes cognitifs partagent les mêmes circuits neuronaux, comme le cortex préfrontal et le réseau du mode par défaut. Le cerveau ajuste donc dynamiquement le “temps d’exécution” de ces circuits selon la complexité de la tâche et la récompense potentielle »
- Les auteurs ont introduit dans HRM une stratégie d’arrêt adaptatif inspirée de ce mécanisme cérébral, autrement dit une stratégie pour “penser vite / penser lentement”
- En clair, c’est un ordonnanceur qui ajuste automatiquement l’usage des ressources de calcul en fonction de la difficulté de la tâche et des données disponibles
- J’aime vraiment le fait que l’article cite à plusieurs reprises des analogies avec le cerveau réel
- À mon avis, l’AGI ne sera possible qu’en combinant ces primitives de base à une complexité extrême, avec de très nombreux « modules » spécialisés qui coopèrent, rivalisent, communiquent et fonctionnent en parallèle
- Le cerveau humain a probablement dû évoluer de cette façon pour atteindre ses capacités cognitives ; avec un tissu biologique lent et peu énergivore, c’est sans doute la seule solution
Dès que j’ai lu cette séparation de structure hlm/llm, ça m’a fait penser au cerveau humain
Il faut garder un point de vue sceptique
- L’idée de contourner la backpropagation, entre autres, est particulièrement intéressante
- Mais l’article n’a visiblement pas encore été évalué par les pairs, et la section résultats manque aussi de détails sur la méthode d’évaluation, avec des chiffres présents surtout dans la figure principale
- Les chiffres diffèrent aussi du leaderboard Benchmarks (ARC2) dans la pratique (les meilleurs sont actuellement autour de 19 %, alors que HRM est plutôt au niveau de 5 %)
- On peut le vérifier directement ici : https://www.kaggle.com/competitions/arc-prize-2025/leaderboard
Le code des auteurs est publié sur https://github.com/sapientinc/HRM
- En IA/ML, un preprint accompagné d’un code exécutable a bien plus de valeur qu’un article officiellement évalué par les pairs
- Un preprint peut être vérifié et reproduit par n’importe qui, alors que le peer review standard repose sur un tout petit nombre d’évaluateurs débordés (et parfois même mal rémunérés)
- Si les auteurs ont raison, cela finira naturellement par être reconnu ; sinon, cela tombera dans l’oubli
- En pratique, c’est une validation distribuée, mondiale, de type open source ; c’est certes plus désordonné, mais bien plus efficace que l’évaluation académique traditionnelle
Dans les articles de machine learning, un scepticisme sain est indispensable
- Avec l’augmentation du nombre de publications, le peer review traditionnel perd de son efficacité
- Il arrive souvent que les reviewers n’aient pas vraiment l’expertise du domaine concerné, ou soient des étudiants
- En réalité, le vrai peer review, c’est quand d’autres experts implémentent indépendamment les résultats après lecture sur arXiv, puis les reproduisent et les citent dans des travaux ultérieurs
- Ce fil de commentaires est en soi un véritable peer review
Je pense que la meilleure façon d’exercer un scepticisme sérieux, c’est de faire des expériences de reproduction et de comparer les résultats
- J’ai dix jours de vacances le mois prochain, et je compte regarder ce que les auteurs ont publié comme code source et datasets, puis tenter une reproduction moi-même
Ce serait prématuré de juger uniquement parce qu’il n’y a pas encore eu de peer review
- Les articles sur mamba1 et mamba2 n’avaient pas non plus été relus par les pairs au départ
- En revanche, je suis d’accord pour dire que des affirmations fortes exigent des preuves fortes, et j’essaie actuellement de reproduire les résultats en local
Attendre un peer review juste après la publication du papier donne l’impression de mal comprendre le processus
- Pour soumettre un travail au peer review, il faut d’abord le « publier »
En tant que psychologue cognitiviste, je pense depuis longtemps qu’il faut globalement aller dans cette direction en IA
- Voir la Fuzzy Trace Theory [1] ; la mémoire construit des représentations à différents niveaux, du mot à mot (détaillé) jusqu’au résumé (gist), puis les combine et les récupère
- La combinaison de représentations synthétiques et d’informations détaillées permet une généralisation puissante et des voies de rappel plus flexibles
- [1] https://pmc.ncbi.nlm.nih.gov/articles/PMC4979567/
Si j’ai bien compris, HRM regarde 1 000 paires Sudoku (grille, solution) et apprend de lui-même les règles
- Ensuite, il peut résoudre de nouvelles grilles jamais vues avec 55 % de précision
- En l’entraînant sur un million d’exemples, il devient presque parfait
- Le fait qu’il n’y ait aucun préentraînement est étonnant
- À l’inverse, AlphaZero a les règles (échecs, go) codées en dur et n’apprend que la stratégie, alors que HRM apprend aussi les règles elles-mêmes
- Je compte aller vérifier directement dans le dépôt GitHub
- AlphaZero a les règles codées en dur, mais MuZero et les modèles suivants fonctionnent sans cela
  - MuZero dépasse AlphaZero en performances, et EfficientZero réduit aussi la quantité d’apprentissage nécessaire
  - Ils excellent dans des environnements variés comme les jeux Atari
- Après avoir testé directement avec le code source :
  - J’aimerais vraiment qu’ils précisent les versions des bibliothèques pour assurer la reproductibilité scientifique (pyproject.toml serait encore mieux)
  - Les 1 000 exemples de Sudoku sont en réalité augmentés via un algorithme de permutation codé à la main, ce qui donne en pratique un dataset d’environ un million d’exemples
    (donc pas vraiment seulement 1 000)
J’attends avec intérêt, et avec une légère inquiétude, de voir si le modèle HRM sera bientôt combiné à du MoE (Mixture of Experts)
- La pression économique pour rendre les LLM plus puissants est très forte, donc je pense qu’un tel couplage pourrait arriver en quelques mois
- L’article ne traite que de puzzles comme le Sudoku, pas de question-réponse ni des principales applications des LLM
- Je trouve dommage qu’il ne discute pas d’une intégration avec la prochaine génération de LLM
- Le MoE est lié aux clusters conceptuels, mais à l’avenir il faudra aussi inclure dans l’espace latent la profondeur des concepts, le nombre de niveaux hiérarchiques, le temps d’apprentissage, etc., un peu comme notre manière de lire change selon qu’on lit un manuel de mathématiques ou un court article
- HRM est conçu pour des puzzles où un petit nombre de règles s’imbriquent de façon complexe
  - Comme il y a peu de règles, un petit modèle suffit à les apprendre, et comme le modèle est petit, on peut le faire tourner de manière itérative pour gérer toutes les interactions
  - La modélisation du langage doit stocker un très grand nombre de formulations et leurs relations, donc cela me paraît difficile avec un modèle aussi petit
  - Heureusement, côté langage, quelques étapes de calcul suffisent souvent pour obtenir un résultat utile
  - Si on mettait un modèle aussi gros qu’un LLM dans une boucle itérative à la HRM, ce serait bien trop lent pour être exploitable en pratique
  - On peut cependant imaginer un LLM principal combiné à un petit HRM qui ne traiterait que les tâches de satisfaction de contraintes
- Le fait qu’il y ait peu de discussion sur d’autres applications que le Sudoku, ou sur les limites du modèle, me rend aussi un peu méfiant
En parcourant l’article, j’ai l’impression qu’un système de LLM MoE (autorégressif, à diffusion, à base d’énergie, peu importe l’approche) pourrait lui aussi empiler des hiérarchies à la manière de HRM
- En combinant tout cela, on pourrait probablement créer de nouveaux benchmarks sur l’efficacité et la qualité
J’apprécie le fait que l’approche soit inspirée des neurosciences, et rien dans l’article ne me paraît particulièrement problématique à première vue
- Je n’ai pas encore fait d’expérience de réplication moi-même, mais ce que les auteurs ont construit ressemble au minimum à un solveur de problèmes de satisfaction de contraintes potentiellement plus générique
- C’est un système qui apprend les règles de contrainte elles-mêmes à partir de peu d’exemples, et si c’est vrai, c’est déjà très intéressant en soi
- En revanche, la comparaison directe avec les modèles CoT ne me semble pas très convaincante
- Les modèles CoT peuvent en principe résoudre n’importe quel problème complexe, mais HRM doit être réentraîné séparément pour chaque puzzle spécialisé, donc il est difficile de revendiquer une vraie généralité
- Par exemple, le fait que le moteur d’échecs Stockfish joue mieux aux échecs qu’un LLM ne signifie pas pour autant que Stockfish soit plus « intelligent »
- C’est une bonne idée, mais j’ai senti un léger excès marketing dans l’article
- D’accord ! Et en réalité, rien que cela constitue déjà une énorme réussite
  - Il faut certes tempérer le hype, mais obtenir de tels résultats avec un si petit modèle reste impressionnant
  - Pour certains problèmes, des modèles sur mesure sont plus efficaces et plus fiables, donc il n’y a pas lieu d’imposer des structures inefficaces au nom du “généraliste”
- Tu dis que les modèles CoT peuvent, par nature, résoudre n’importe quelle tâche complexe ; j’aimerais bien savoir sur quoi cela repose
  - Je me demande même s’il existe une preuve mathématique
  - Personnellement, j’ai plutôt l’impression que le CoT est une sorte d’astuce pour contourner les limites des LLM actuels
Si cet article dit vrai, son impact serait énorme, donc je continue de le suivre de près
- Le concept de base semble raisonnable, mais je préfère rester prudent tant qu’il n’y a pas de validation tierce
- J’aimerais bien le vérifier moi-même en pratique