3 points par GN⁺ 2025-10-10 | 1 commentaires | Partager sur WhatsApp
  • Le Tiny Recursion Model (TRM) atteint de hautes performances avec un petit réseau neuronal d’environ 7 M de paramètres : 45 % sur ARC-AGI-1 et 8 % sur ARC-AGI-2
  • Il démontre qu’il est possible de résoudre des problèmes difficiles en appliquant une méthode de raisonnement récursif, même sans recourir à un grand modèle de langage
  • Ce modèle simplifie la structure complexe du Hierarchical Reasoning Model (HRM) existant pour ne conserver que le processus central de raisonnement récursif
  • TRM améliore continuellement la qualité des réponses avec un modèle petit et efficace, sans s’appuyer sur le cerveau humain, des théorèmes mathématiques complexes ou une structure hiérarchique
  • Cet article souligne que, face aux problèmes difficiles, une nouvelle approche importe davantage que la taille du modèle

Vue d’ensemble

  • Cet article propose un nouveau modèle de raisonnement récursif appelé Tiny Recursion Model (TRM)
  • Bien qu’il s’agisse d’un réseau neuronal très petit de 7 M de paramètres, TRM enregistre une précision significative de 45 % sur ARC-AGI-1 et 8 % sur ARC-AGI-2
  • Le modèle montre expérimentalement que, même sans grand modèle entraîné par de grandes entreprises pour des centaines de millions de dollars, un raisonnement récursif efficace peut suffire à résoudre des problèmes complexes
  • Alors que le secteur se concentre aujourd’hui de manière excessive sur l’usage des LLM, TRM suggère que de nouvelles orientations en matière de raisonnement et d’apprentissage sont essentielles

Ce qui le distingue des travaux précédents

  • Le Hierarchical Reasoning Model (HRM) existant dépendait fortement d’une logique inspirée de la biologie, de structures hiérarchiques complexes et de théorèmes mathématiques (comme le théorème du point fixe)
  • TRM élimine cette complexité et simplifie de façon intuitive aussi bien la conception que l’implémentation en ne conservant que le mécanisme central, simplifié au maximum, du raisonnement récursif
  • L’idée clé est d’améliorer continuellement la précision des réponses via un processus récursif d’auto-itération, sans structure de cerveau humain ni arrière-plan théorique particulier

Fonctionnement de TRM

  • Le modèle commence par intégrer la question d’entrée x, la réponse initiale y et l’état caché z
  • Pendant jusqu’à K étapes d’amélioration, les deux phases suivantes sont répétées :
    • i) la valeur cachée z est mise à jour n fois de manière itérative à partir de la question x, de la réponse y et de l’état caché z courants (raisonnement récursif)
    • ii) la réponse y est ensuite mise à jour à partir de la réponse y actuelle et du nouvel état caché z afin de produire une meilleure réponse
  • Ce processus de répétition récursive améliore continuellement la qualité des réponses sans augmenter le nombre de paramètres du modèle, tout en réduisant le risque de surapprentissage

Conclusion

  • Les travaux sur TRM prouvent que la taille du modèle n’est pas nécessairement un facteur indispensable au succès
  • Ils montrent expérimentalement qu’avec le seul principe du raisonnement récursif, un petit réseau neuronal peut atteindre des résultats proches de ceux des grands modèles
  • Ils soulignent, pour l’avenir de la recherche en intelligence artificielle, l’importance de développer des orientations nouvelles, efficaces et créatives
  • Pour plus de détails, voir l’article

1 commentaires

 
GN⁺ 2025-10-10
Avis Hacker News
  • Je recommande vivement à tout le monde de lire attentivement le billet de blog des organisateurs d’ARC-AGI sur HRM
    À conditions égales de data augmentation et de « test time training », il semble qu’un Transformer de base obtienne des résultats presque comparables aux « performances impressionnantes » rapportées pour HRM
    Cet article semble lui aussi se comparer à ARC-AGI dans des conditions similaires
    Moi aussi, j’aimerais obtenir d’excellentes capacités de raisonnement avec des modèles plus petits
    Mais il faut d’abord comprendre ce qu’évalue ARC-AGI, quels sont les réglages habituels utilisés pour comparer des LLM commerciaux entre eux, et quels sont les réglages particuliers employés par HRM ou dans cet article
    Les noms de benchmarks ont tendance à susciter des attentes excessives, et je retrouve cela à la fois dans HRM et dans cet article

    • L’article sur TRM traite déjà de ce billet de blog
      Il n’est pas nécessaire de suranalyser le texte sur HRM, et TRM a une structure plus disentangled que HRM, donc les études d’ablation y sont bien plus faciles
      À mon avis, la vraie valeur du billet HRM d’arcprize est de souligner l’importance des tests d’ablation
      ARC-AGI a été conçu comme un challenge pour tous les modèles
      On supposait qu’il fallait une capacité de raisonnement du niveau des grands modèles de langage type LLM pour le résoudre, mais cela semble avoir été une mauvaise interprétation
      J’aimerais savoir si la différence mise en avant est que HRM et TRM sont entraînés de façon spécialisée sur un petit jeu d’exemples ARC-AGI, alors que les LLM ne le sont pas
      Ou bien je me demande quelle différence est précisément soulignée
  • Ce n’est pas tant un « Transformer de base » qu’une « architecture de type Transformer avec une structure récurrente »
    Cela reste un sujet d’expérimentation intéressant
    Il y a clairement des avantages, mais je ne pense pas que ce soit réellement un meilleur Transformer
    L’attention très forte qu’il reçoit en ce moment me paraît un peu excessive

  • En lisant cela, je repense encore une fois à l’analogie entre les filtres à réponse impulsionnelle finie (FIR) (LLM classiques) et les filtres à réponse impulsionnelle infinie (IIR) (modèles récursifs)
    Ce n’est ni une analogie brillante ni particulièrement originale, mais pour obtenir des caractéristiques de coupure comparables, un FIR a besoin de beaucoup plus de coefficients qu’un IIR
    Par exemple, on peut transformer un IIR en FIR via la window design method, auquel cas on déroule la structure récurrente puis on l’arrête à une profondeur finie
    De façon similaire, si l’on déroule TRM, on obtient dans une architecture LLM traditionnelle une répétition de blocs attention+ff dont seul le feedback global est retiré
    En plus, TRM implémente une coupure finie, contrairement à un véritable IIR, donc structurellement il semble plus proche de FIR/LLM
    Il serait aussi intéressant de comparer TRM à une structure déroulée de ce type
    Mais c’est peut-être juste une idée née d’un manque de sommeil

    • J’aimerais mentionner les Deep Equilibrium Models
      Ils partent de l’observation que, dans la plupart des modèles séquentiels profonds classiques, les couches cachées convergent vers un certain point fixe, et cherchent directement ce point fixe par root finding
      Cette approche est équivalente à exécuter un réseau feedforward de profondeur infinie avec partage des poids, tout en permettant la rétropropagation via différenciation implicite
      (lien arXiv)
      Ce qui rend les modèles de deep equilibrium intéressants, c’est qu’une seule couche peut être équivalente à un réseau de deep learning à plusieurs couches empilées
      Il suffit d’avoir de la récurrence
      Le nombre d’itérations s’ajuste de lui-même selon la difficulté de la tâche
  • J’ai implémenté HRM à des fins pédagogiques et obtenu de bonnes performances sur la recherche de chemin
    Puis j’ai fait des expériences d’ablation et je suis arrivé à la même conclusion que l’équipe ARC-AGI, à savoir que l’architecture HRM en elle-même ne joue pas un grand rôle
    C’est un peu décevant
    Je pense qu’il y a quand même quelque chose à creuser dans le latent space reasoning
    Dépôt de l’implémentation

    • Je pense que c’est un excellent travail, merci d’avoir tout mis en ordre et partagé
      La réplication et le partage d’expérience sont vraiment essentiels
  • Je me demande si les résultats révélés dans cet article arXiv sont réellement extensibles
    Si cela fonctionne aussi dans des applications réelles, ce serait clairement révolutionnaire
    En même temps, si c’est le cas, on peut s’amuser à imaginer que les investissements astronomiques dans les infrastructures actuelles des datacenters IA pourraient devenir soudainement inutiles
    (même si ça ne durerait sans doute pas longtemps)

    • Quand on parle de HRM, il faut absolument consulter l’analyse HRM d’arcprize
      Cet article semble être une version simplifiée de HRM, et il semble aussi s’appuyer sur l’étude d’ablation de cette analyse
      Il est également important de noter que HRM n’est pas une architecture largement applicable comme les Transformer LLM généralistes
      Il n’existe encore aucune preuve que HRM fonctionne pour des tâches génératives IA générales
      Je lis l’article, mais cette architecture aussi semble adaptée à des tâches similaires à HRM, par exemple du raisonnement spatial comme ARC-AGI, et elle doit encore être intégrée dans une architecture plus générale

    • Je pense qu’ici le paradoxe de Jevons s’applique
      Si le coût de l’IA et de l’électricité baisse, la demande augmentera encore

    • L’idée que la bulle de l’IA éclate parce que la technologie IA devient trop bonne et que l’efficacité grimpe de façon extrême est assez plausible

    • À propos de l’idée que les investissements dans les datacenters IA pourraient devenir inutiles
      Le calcul GPU ne sert pas seulement à l’inférence texte, et notamment la demande pour la génération vidéo sera probablement difficile à saturer avant un bon moment, même en cas d’innovation majeure

    • Si de tels résultats se concrétisent réellement, l’industrie adoptera presque immédiatement cette approche pour entraîner des modèles encore plus grands et plus puissants

  • « Avec 7M de paramètres, TRM atteint 45 % de précision de test sur ARC-AGI-1 et 8 % sur ARC-AGI-2, ce qui dépasse la plupart des LLM comme Deepseek R1, o3-mini et Gemini 2.5 Pro, avec moins de 0,01 % de leurs paramètres »
    C’est vraiment impressionnant
    Au passage, d’un point de vue architectural, cela rappelle la Hierarchical Temporal Memory proposée par Jeff Hawkins dans « On Intelligence »
    (sans les caractéristiques de sparsity, bien sûr, mais avec des aspects hiérarchiques et temporels similaires)
    Wiki HTM, Numenta

    • J’ai l’impression que l’absence de sparsity est peut-être le talon d’Achille de l’approche actuelle des LLM
  • Résumé
    Le Hierarchical Reasoning Model (HRM) est une approche originale qui fait tourner récursivement deux petits réseaux neuronaux à des rythmes différents
    Inspiré de la biologie, il dépasse de grands LLM sur des puzzles difficiles comme Sudoku, Maze et ARC-AGI avec un petit modèle (27M de paramètres) et peu de données (de l’ordre de 1000 exemples)
    Son fonctionnement n’est pas encore totalement compris et ses performances ne sont peut-être pas optimales
    Nous proposons une méthode de raisonnement récursif bien plus simple (TRM, Tiny Recursive Model), et ce modèle montre une généralisation bien supérieure à HRM avec un petit réseau à 2 couches
    Avec seulement 7M de paramètres, il dépasse les grands LLM (45 % de précision de test sur ARC-AGI-1, 8 % sur ARC-AGI-2, avec moins de 0,01 % de leurs paramètres)

    • Le fait de dépasser les grands LLM avec seulement 7M de paramètres est assez séduisant
      Mais je me demande s’il n’y a pas une limite cachée quelque part
  • Il est intéressant de voir que la récurrence donne de bons résultats sur les problèmes ARC
    Si vous vous intéressez à la récurrence, vous pouvez aussi regarder les articles ci-dessous qui appliquent ce type de modèle à d’autres problèmes

  • Globalement, j’aime bien la famille Transformer/RNN
    Fondamentalement, c’est une EBM qui apprend un paysage d’énergie et attire vers la solution
    Cela donne l’impression de résoudre progressivement des problèmes discrets de manière plus convexe
    Cela fait penser aux neural cellular automata, au flow matching/diffusion, etc.
    Cette approche paraît aussi prometteuse pour les problèmes de contrôle
    On continue à se déplacer dans l’espace d’état en ne choisissant à chaque étape que les actions valides

  • Je me demande si ce n’est pas, au fond, exactement la même chose qu’un Chain-of-Thought (CoT) en neuralese
    z/z_L est explicitement présenté comme un reasoning embedding, qui évolue ou se maintient au fil du processus récursif pour affiner progressivement l’embedding de sortie (z_H/y)
    Cela ressemble vraiment à une chaîne de raisonnement / un CoT en neuralese