- Une nouvelle stratégie de raisonnement RLM (Recursive Language Model) a été proposée pour permettre aux grands modèles de langage (LLM) de traiter des prompts d’entrée très longs
- RLM considère les longs prompts comme une partie de l’environnement externe et permet au modèle de les explorer, décomposer et appeler récursivement de manière programmatique
- Cette approche dépasse les limites de la fenêtre de contexte et traite des entrées allant jusqu’à plusieurs dizaines de millions de tokens, avec une forte amélioration de la qualité par rapport aux LLM existants
- Les résultats expérimentaux montrent que les RLM basés sur GPT-5 et Qwen3-Coder affichent des gains de performance à deux chiffres sur diverses tâches longues, pour un coût comparable ou inférieur
- Elle est considérée comme une approche générale capable d’élargir fortement les capacités de raisonnement des LLM en surmontant les limites du traitement de longs contextes
Vue d’ensemble de RLM
- Recursive Language Model (RLM) est conçu pour que le LLM n’injecte pas directement une longue entrée dans le réseau neuronal, mais la traite comme une variable de l’environnement externe avec laquelle il interagit
- Le prompt d’entrée P est chargé comme variable dans un environnement Python REPL, et le LLM l’explore, le décompose et l’appelle récursivement via du code
- Le LLM perçoit l’état de l’environnement REPL (par ex. la longueur d’une chaîne), observe les effets de bord de l’exécution du code et résout progressivement le problème
- Cette structure résout le problème de perte de détails des approches classiques de compaction du contexte ou basées sur le résumé
- RLM est présenté comme un paradigme général de raisonnement capable d’étendre à la fois la longueur des entrées et celle des sorties
Limites des approches existantes
- Les LLM existants montrent un phénomène de context rot, avec une forte dégradation des performances sur les longues entrées à cause des limites de la fenêtre de contexte
- Les techniques de compaction du contexte répètent les résumés au-delà d’une certaine longueur, mais elles sont inadaptées aux tâches nécessitant un accès fin à l’information
- RLM traite le prompt comme un objet externe, ce qui permet d’étendre la taille d’entrée au-delà des limites du modèle
Configuration expérimentale
- Modèles évalués : GPT-5 (OpenAI, 2025) et Qwen3-Coder-480B-A35B (Team, 2025)
- Méthodes comparées :
- appel direct du LLM de base
- agent de résumé (Summary agent)
- agent basé sur la recherche CodeAct + BM25
- RLM (avec environnement REPL) et RLM (REPL, sans appels récursifs)
- Dans les expériences GPT-5, GPT-5-mini est utilisé pour les appels récursifs et GPT-5 comme modèle racine afin d’équilibrer performances et coûts
Tâches d’évaluation
- S-NIAH : problème unique de type « needle-in-a-haystack », avec un coût de traitement constant quelle que soit la longueur d’entrée
- BrowseComp-Plus : tâche de questions-réponses multi-hop à travers plusieurs documents, la bonne réponse étant incluse parmi 1000 documents
- OOLONG : tâche de raisonnement long nécessitant une transformation et une intégration sémantique de presque tous les éléments de l’entrée, avec un coût de traitement linéaire en fonction de la longueur d’entrée
- OOLONG-Pairs : variante d’OOLONG nécessitant une combinaison d’informations par paires, avec un coût de traitement quadratique par rapport à la longueur d’entrée
- LongBench-v2 CodeQA : tâche à choix multiple demandant une compréhension d’un dépôt de code, difficile même pour les modèles récents
Principaux résultats
- RLM ne montre quasiment aucune dégradation par rapport à GPT-5, même sur de longs contextes
- GPT-5 voit ses performances chuter fortement à mesure que la longueur d’entrée et la complexité de la tâche augmentent
- RLM traite efficacement des entrées dépassant la limite de 272K tokens (jusqu’à plus de 10M de tokens)
- Sur toutes les tâches longues, RLM obtient des gains de performance à deux chiffres par rapport aux autres méthodes
- L’efficacité en coût est également maintenue, avec un coût par requête comparable, voire inférieur, aux approches existantes
Analyse de la complexité des tâches longues
- La fenêtre de contexte effective d’un LLM peut être plus courte que sa limite physique selon la complexité de la tâche
- Un problème NIAH simple peut être résolu même avec plus de 1M de tokens
- Des tâches plus complexes de type OOLONG voient leurs performances baisser dès des longueurs bien plus modestes
- Il faut donc considérer ensemble la densité d’information de la tâche et sa corrélation avec la longueur d’entrée
Conclusion
- RLM étend récursivement les capacités de raisonnement des LLM, ce qui permet de traiter des entrées extrêmement longues que les modèles existants ne peuvent pas gérer
- Le choix de conception qui traite le prompt comme un objet de l’environnement constitue l’innovation clé et résout les limites structurelles du traitement de longs textes
- Il est présenté comme un cadre général de raisonnement atteignant un équilibre entre performance, coût et passage à l’échelle sur différents modèles et tâches
Aucun commentaire pour le moment.