Moins, c’est plus : le raisonnement récursif avec de petits réseaux

(alexiajm.github.io)

3 points par GN⁺ 2025-10-10 | 1 commentaires | Partager sur WhatsApp

Le Tiny Recursion Model (TRM) atteint de hautes performances avec un petit réseau neuronal d’environ 7 M de paramètres : 45 % sur ARC-AGI-1 et 8 % sur ARC-AGI-2
Il démontre qu’il est possible de résoudre des problèmes difficiles en appliquant une méthode de raisonnement récursif, même sans recourir à un grand modèle de langage
Ce modèle simplifie la structure complexe du Hierarchical Reasoning Model (HRM) existant pour ne conserver que le processus central de raisonnement récursif
TRM améliore continuellement la qualité des réponses avec un modèle petit et efficace, sans s’appuyer sur le cerveau humain, des théorèmes mathématiques complexes ou une structure hiérarchique
Cet article souligne que, face aux problèmes difficiles, une nouvelle approche importe davantage que la taille du modèle

Vue d’ensemble

Cet article propose un nouveau modèle de raisonnement récursif appelé Tiny Recursion Model (TRM)
Bien qu’il s’agisse d’un réseau neuronal très petit de 7 M de paramètres, TRM enregistre une précision significative de 45 % sur ARC-AGI-1 et 8 % sur ARC-AGI-2
Le modèle montre expérimentalement que, même sans grand modèle entraîné par de grandes entreprises pour des centaines de millions de dollars, un raisonnement récursif efficace peut suffire à résoudre des problèmes complexes
Alors que le secteur se concentre aujourd’hui de manière excessive sur l’usage des LLM, TRM suggère que de nouvelles orientations en matière de raisonnement et d’apprentissage sont essentielles

Ce qui le distingue des travaux précédents

Le Hierarchical Reasoning Model (HRM) existant dépendait fortement d’une logique inspirée de la biologie, de structures hiérarchiques complexes et de théorèmes mathématiques (comme le théorème du point fixe)
TRM élimine cette complexité et simplifie de façon intuitive aussi bien la conception que l’implémentation en ne conservant que le mécanisme central, simplifié au maximum, du raisonnement récursif
L’idée clé est d’améliorer continuellement la précision des réponses via un processus récursif d’auto-itération, sans structure de cerveau humain ni arrière-plan théorique particulier

Fonctionnement de TRM

Le modèle commence par intégrer la question d’entrée x, la réponse initiale y et l’état caché z
Pendant jusqu’à K étapes d’amélioration, les deux phases suivantes sont répétées :
- i) la valeur cachée z est mise à jour n fois de manière itérative à partir de la question x, de la réponse y et de l’état caché z courants (raisonnement récursif)
- ii) la réponse y est ensuite mise à jour à partir de la réponse y actuelle et du nouvel état caché z afin de produire une meilleure réponse
Ce processus de répétition récursive améliore continuellement la qualité des réponses sans augmenter le nombre de paramètres du modèle, tout en réduisant le risque de surapprentissage

Conclusion

Les travaux sur TRM prouvent que la taille du modèle n’est pas nécessairement un facteur indispensable au succès
Ils montrent expérimentalement qu’avec le seul principe du raisonnement récursif, un petit réseau neuronal peut atteindre des résultats proches de ceux des grands modèles
Ils soulignent, pour l’avenir de la recherche en intelligence artificielle, l’importance de développer des orientations nouvelles, efficaces et créatives
Pour plus de détails, voir l’article

1 commentaires

GN⁺ 2025-10-10

Avis Hacker News

Je recommande vivement à tout le monde de lire attentivement le billet de blog des organisateurs d’ARC-AGI sur HRM
À conditions égales de data augmentation et de « test time training », il semble qu’un Transformer de base obtienne des résultats presque comparables aux « performances impressionnantes » rapportées pour HRM
Cet article semble lui aussi se comparer à ARC-AGI dans des conditions similaires
Moi aussi, j’aimerais obtenir d’excellentes capacités de raisonnement avec des modèles plus petits
Mais il faut d’abord comprendre ce qu’évalue ARC-AGI, quels sont les réglages habituels utilisés pour comparer des LLM commerciaux entre eux, et quels sont les réglages particuliers employés par HRM ou dans cet article
Les noms de benchmarks ont tendance à susciter des attentes excessives, et je retrouve cela à la fois dans HRM et dans cet article
- L’article sur TRM traite déjà de ce billet de blog
  Il n’est pas nécessaire de suranalyser le texte sur HRM, et TRM a une structure plus disentangled que HRM, donc les études d’ablation y sont bien plus faciles
  À mon avis, la vraie valeur du billet HRM d’arcprize est de souligner l’importance des tests d’ablation
  ARC-AGI a été conçu comme un challenge pour tous les modèles
  On supposait qu’il fallait une capacité de raisonnement du niveau des grands modèles de langage type LLM pour le résoudre, mais cela semble avoir été une mauvaise interprétation
  J’aimerais savoir si la différence mise en avant est que HRM et TRM sont entraînés de façon spécialisée sur un petit jeu d’exemples ARC-AGI, alors que les LLM ne le sont pas
  Ou bien je me demande quelle différence est précisément soulignée
Ce n’est pas tant un « Transformer de base » qu’une « architecture de type Transformer avec une structure récurrente »
Cela reste un sujet d’expérimentation intéressant
Il y a clairement des avantages, mais je ne pense pas que ce soit réellement un meilleur Transformer
L’attention très forte qu’il reçoit en ce moment me paraît un peu excessive
En lisant cela, je repense encore une fois à l’analogie entre les filtres à réponse impulsionnelle finie (FIR) (LLM classiques) et les filtres à réponse impulsionnelle infinie (IIR) (modèles récursifs)
Ce n’est ni une analogie brillante ni particulièrement originale, mais pour obtenir des caractéristiques de coupure comparables, un FIR a besoin de beaucoup plus de coefficients qu’un IIR
Par exemple, on peut transformer un IIR en FIR via la window design method, auquel cas on déroule la structure récurrente puis on l’arrête à une profondeur finie
De façon similaire, si l’on déroule TRM, on obtient dans une architecture LLM traditionnelle une répétition de blocs attention+ff dont seul le feedback global est retiré
En plus, TRM implémente une coupure finie, contrairement à un véritable IIR, donc structurellement il semble plus proche de FIR/LLM
Il serait aussi intéressant de comparer TRM à une structure déroulée de ce type
Mais c’est peut-être juste une idée née d’un manque de sommeil
- J’aimerais mentionner les Deep Equilibrium Models
  Ils partent de l’observation que, dans la plupart des modèles séquentiels profonds classiques, les couches cachées convergent vers un certain point fixe, et cherchent directement ce point fixe par root finding
  Cette approche est équivalente à exécuter un réseau feedforward de profondeur infinie avec partage des poids, tout en permettant la rétropropagation via différenciation implicite
  (lien arXiv)
  Ce qui rend les modèles de deep equilibrium intéressants, c’est qu’une seule couche peut être équivalente à un réseau de deep learning à plusieurs couches empilées
  Il suffit d’avoir de la récurrence
  Le nombre d’itérations s’ajuste de lui-même selon la difficulté de la tâche
J’ai implémenté HRM à des fins pédagogiques et obtenu de bonnes performances sur la recherche de chemin
Puis j’ai fait des expériences d’ablation et je suis arrivé à la même conclusion que l’équipe ARC-AGI, à savoir que l’architecture HRM en elle-même ne joue pas un grand rôle
C’est un peu décevant
Je pense qu’il y a quand même quelque chose à creuser dans le latent space reasoning
Dépôt de l’implémentation
- Je pense que c’est un excellent travail, merci d’avoir tout mis en ordre et partagé
  La réplication et le partage d’expérience sont vraiment essentiels
Je me demande si les résultats révélés dans cet article arXiv sont réellement extensibles
Si cela fonctionne aussi dans des applications réelles, ce serait clairement révolutionnaire
En même temps, si c’est le cas, on peut s’amuser à imaginer que les investissements astronomiques dans les infrastructures actuelles des datacenters IA pourraient devenir soudainement inutiles
(même si ça ne durerait sans doute pas longtemps)
- Quand on parle de HRM, il faut absolument consulter l’analyse HRM d’arcprize
  Cet article semble être une version simplifiée de HRM, et il semble aussi s’appuyer sur l’étude d’ablation de cette analyse
  Il est également important de noter que HRM n’est pas une architecture largement applicable comme les Transformer LLM généralistes
  Il n’existe encore aucune preuve que HRM fonctionne pour des tâches génératives IA générales
  Je lis l’article, mais cette architecture aussi semble adaptée à des tâches similaires à HRM, par exemple du raisonnement spatial comme ARC-AGI, et elle doit encore être intégrée dans une architecture plus générale
- Je pense qu’ici le paradoxe de Jevons s’applique
  Si le coût de l’IA et de l’électricité baisse, la demande augmentera encore
- L’idée que la bulle de l’IA éclate parce que la technologie IA devient trop bonne et que l’efficacité grimpe de façon extrême est assez plausible
- À propos de l’idée que les investissements dans les datacenters IA pourraient devenir inutiles
  Le calcul GPU ne sert pas seulement à l’inférence texte, et notamment la demande pour la génération vidéo sera probablement difficile à saturer avant un bon moment, même en cas d’innovation majeure
- Si de tels résultats se concrétisent réellement, l’industrie adoptera presque immédiatement cette approche pour entraîner des modèles encore plus grands et plus puissants
« Avec 7M de paramètres, TRM atteint 45 % de précision de test sur ARC-AGI-1 et 8 % sur ARC-AGI-2, ce qui dépasse la plupart des LLM comme Deepseek R1, o3-mini et Gemini 2.5 Pro, avec moins de 0,01 % de leurs paramètres »
C’est vraiment impressionnant
Au passage, d’un point de vue architectural, cela rappelle la Hierarchical Temporal Memory proposée par Jeff Hawkins dans « On Intelligence »
(sans les caractéristiques de sparsity, bien sûr, mais avec des aspects hiérarchiques et temporels similaires)
Wiki HTM, Numenta
- J’ai l’impression que l’absence de sparsity est peut-être le talon d’Achille de l’approche actuelle des LLM
Résumé
Le Hierarchical Reasoning Model (HRM) est une approche originale qui fait tourner récursivement deux petits réseaux neuronaux à des rythmes différents
Inspiré de la biologie, il dépasse de grands LLM sur des puzzles difficiles comme Sudoku, Maze et ARC-AGI avec un petit modèle (27M de paramètres) et peu de données (de l’ordre de 1000 exemples)
Son fonctionnement n’est pas encore totalement compris et ses performances ne sont peut-être pas optimales
Nous proposons une méthode de raisonnement récursif bien plus simple (TRM, Tiny Recursive Model), et ce modèle montre une généralisation bien supérieure à HRM avec un petit réseau à 2 couches
Avec seulement 7M de paramètres, il dépasse les grands LLM (45 % de précision de test sur ARC-AGI-1, 8 % sur ARC-AGI-2, avec moins de 0,01 % de leurs paramètres)
- Le fait de dépasser les grands LLM avec seulement 7M de paramètres est assez séduisant
  Mais je me demande s’il n’y a pas une limite cachée quelque part
Il est intéressant de voir que la récurrence donne de bons résultats sur les problèmes ARC
Si vous vous intéressez à la récurrence, vous pouvez aussi regarder les articles ci-dessous qui appliquent ce type de modèle à d’autres problèmes
- Modélisation du langage : Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
- Résolution de puzzles : A Simple Loss Function for Convergent Algorithm Synthesis using RNNs
- Synthèse d’algorithmes end-to-end : End-to-end Algorithm Synthesis with Recurrent Networks, Can You Learn an Algorithm? Generalizing from Easy to Hard Problems with Recurrent Networks
- Approches générales : Think Again Networks and the Delta Loss, Universal Transformers, Adaptive Computation Time for Recurrent Neural Networks
Globalement, j’aime bien la famille Transformer/RNN
Fondamentalement, c’est une EBM qui apprend un paysage d’énergie et attire vers la solution
Cela donne l’impression de résoudre progressivement des problèmes discrets de manière plus convexe
Cela fait penser aux neural cellular automata, au flow matching/diffusion, etc.
Cette approche paraît aussi prometteuse pour les problèmes de contrôle
On continue à se déplacer dans l’espace d’état en ne choisissant à chaque étape que les actions valides
Je me demande si ce n’est pas, au fond, exactement la même chose qu’un Chain-of-Thought (CoT) en neuralese
z/z_L est explicitement présenté comme un reasoning embedding, qui évolue ou se maintient au fil du processus récursif pour affiner progressivement l’embedding de sortie (z_H/y)
Cela ressemble vraiment à une chaîne de raisonnement / un CoT en neuralese

Moins, c’est plus : le raisonnement récursif avec de petits réseaux

Vue d’ensemble

Ce qui le distingue des travaux précédents

Fonctionnement de TRM

Conclusion

À lire aussi

1 commentaires

Avis Hacker News