Modèles de langage récursifs (Recursive Language Models)

(arxiv.org)

2 points par GN⁺ 2026-01-05 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Une nouvelle stratégie de raisonnement RLM (Recursive Language Model) a été proposée pour permettre aux grands modèles de langage (LLM) de traiter des prompts d’entrée très longs
RLM considère les longs prompts comme une partie de l’environnement externe et permet au modèle de les explorer, décomposer et appeler récursivement de manière programmatique
Cette approche dépasse les limites de la fenêtre de contexte et traite des entrées allant jusqu’à plusieurs dizaines de millions de tokens, avec une forte amélioration de la qualité par rapport aux LLM existants
Les résultats expérimentaux montrent que les RLM basés sur GPT-5 et Qwen3-Coder affichent des gains de performance à deux chiffres sur diverses tâches longues, pour un coût comparable ou inférieur
Elle est considérée comme une approche générale capable d’élargir fortement les capacités de raisonnement des LLM en surmontant les limites du traitement de longs contextes

Vue d’ensemble de RLM

Recursive Language Model (RLM) est conçu pour que le LLM n’injecte pas directement une longue entrée dans le réseau neuronal, mais la traite comme une variable de l’environnement externe avec laquelle il interagit
- Le prompt d’entrée P est chargé comme variable dans un environnement Python REPL, et le LLM l’explore, le décompose et l’appelle récursivement via du code
- Le LLM perçoit l’état de l’environnement REPL (par ex. la longueur d’une chaîne), observe les effets de bord de l’exécution du code et résout progressivement le problème
Cette structure résout le problème de perte de détails des approches classiques de compaction du contexte ou basées sur le résumé
RLM est présenté comme un paradigme général de raisonnement capable d’étendre à la fois la longueur des entrées et celle des sorties

Les LLM existants montrent un phénomène de context rot, avec une forte dégradation des performances sur les longues entrées à cause des limites de la fenêtre de contexte
Les techniques de compaction du contexte répètent les résumés au-delà d’une certaine longueur, mais elles sont inadaptées aux tâches nécessitant un accès fin à l’information
RLM traite le prompt comme un objet externe, ce qui permet d’étendre la taille d’entrée au-delà des limites du modèle

Modèles évalués : GPT-5 (OpenAI, 2025) et Qwen3-Coder-480B-A35B (Team, 2025)
Méthodes comparées :
- appel direct du LLM de base
- agent de résumé (Summary agent)
- agent basé sur la recherche CodeAct + BM25
- RLM (avec environnement REPL) et RLM (REPL, sans appels récursifs)
Dans les expériences GPT-5, GPT-5-mini est utilisé pour les appels récursifs et GPT-5 comme modèle racine afin d’équilibrer performances et coûts

S-NIAH : problème unique de type « needle-in-a-haystack », avec un coût de traitement constant quelle que soit la longueur d’entrée
BrowseComp-Plus : tâche de questions-réponses multi-hop à travers plusieurs documents, la bonne réponse étant incluse parmi 1000 documents
OOLONG : tâche de raisonnement long nécessitant une transformation et une intégration sémantique de presque tous les éléments de l’entrée, avec un coût de traitement linéaire en fonction de la longueur d’entrée
OOLONG-Pairs : variante d’OOLONG nécessitant une combinaison d’informations par paires, avec un coût de traitement quadratique par rapport à la longueur d’entrée
LongBench-v2 CodeQA : tâche à choix multiple demandant une compréhension d’un dépôt de code, difficile même pour les modèles récents

RLM ne montre quasiment aucune dégradation par rapport à GPT-5, même sur de longs contextes
- GPT-5 voit ses performances chuter fortement à mesure que la longueur d’entrée et la complexité de la tâche augmentent
- RLM traite efficacement des entrées dépassant la limite de 272K tokens (jusqu’à plus de 10M de tokens)
Sur toutes les tâches longues, RLM obtient des gains de performance à deux chiffres par rapport aux autres méthodes
L’efficacité en coût est également maintenue, avec un coût par requête comparable, voire inférieur, aux approches existantes

La fenêtre de contexte effective d’un LLM peut être plus courte que sa limite physique selon la complexité de la tâche
- Un problème NIAH simple peut être résolu même avec plus de 1M de tokens
- Des tâches plus complexes de type OOLONG voient leurs performances baisser dès des longueurs bien plus modestes
Il faut donc considérer ensemble la densité d’information de la tâche et sa corrélation avec la longueur d’entrée

RLM étend récursivement les capacités de raisonnement des LLM, ce qui permet de traiter des entrées extrêmement longues que les modèles existants ne peuvent pas gérer
Le choix de conception qui traite le prompt comme un objet de l’environnement constitue l’innovation clé et résout les limites structurelles du traitement de longs textes
Il est présenté comme un cadre général de raisonnement atteignant un équilibre entre performance, coût et passage à l’échelle sur différents modèles et tâches