Pourquoi les longs contextes échouent

(dbreunig.com)

3 points par GN⁺ 2025-07-06 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Les modèles de langage de grande taille les plus récents ont introduit des fenêtres de contexte longues prenant en charge jusqu’à 1 million de tokens, ce qui a suscité l’espoir d’une amélioration spectaculaire des performances des agents
En pratique, les longs contextes ne produisent pas de meilleures réponses et provoquent au contraire des défaillances du système à cause de l’empoisonnement du contexte, des erreurs, de la confusion et des conflits
Les principaux problèmes sont l’empoisonnement du contexte (poisoning), la distraction du contexte (distraction), la confusion du contexte (confusion) et le conflit du contexte (clash)
Ces problèmes affectent encore davantage les agents dans les flux complexes impliquant de multiples sources d’information, des connexions à des outils et du raisonnement en plusieurs étapes
Un prochain article abordera des solutions concrètes et des stratégies d’évitement

L’importance de la gestion du contexte

Les grands modèles frontier récents proposent des fenêtres de contexte étendues prenant en charge jusqu’à 1 million de tokens
Beaucoup pensent qu’avec une grande fenêtre, on peut y faire entrer tous les outils, documents et consignes sans difficulté
En réalité, la surcharge de contexte provoque divers échecs, et cela devient particulièrement critique dans les applications de type agent

L’empoisonnement du contexte correspond à l’introduction dans le contexte de hallucinations ou d’erreurs, ensuite référencées de manière répétée
Le rapport technique de Gemini 2.5 de Deep Mind décrit des cas où un état de jeu erroné reste dans les sections d’objectifs ou de résumé pendant une partie, poussant l’agent à répéter de mauvais comportements à cause de stratégies absurdes et d’objectifs impossibles
Ce contexte empoisonné brouille temporairement ou durablement le jugement de l’agent

La distraction du contexte désigne le phénomène par lequel le contexte devient si long que le modèle se concentre excessivement sur le contexte plutôt que sur ce qu’il a appris pendant l’entraînement
Même avec la fenêtre de plus de 1M tokens de Gemini 2.5 Pro, dès que le contexte dépasse 100 000 tokens, le modèle tend à répéter l’historique passé et a du mal à élaborer des plans créatifs
Une étude de Databricks a confirmé que, pour Llama 3.1 405b, la précision chute déjà brutalement à 32 000 tokens
Cela suggère que des fenêtres extrêmement larges ne sont en pratique utiles que pour la synthèse (summarization) et la recherche de faits (retrieval)

Lorsqu’on place trop d’outils ou de définitions dans le contexte, le modèle génère des réponses de mauvaise qualité, comme des appels d’outils inutiles ou inadaptés
D’après le Function-Calling Leaderboard de Berkeley, plus on fournit d’outils, plus les performances de tous les modèles baissent, avec des appels superflus fréquents
Dans l’article sur le benchmark GeoEngine, le modèle Llama 3.1 8b échoue lorsqu’on lui donne 46 outils, mais réussit lorsqu’on n’en fournit que 19
Les informations placées dans le contexte sont perçues par le modèle comme des éléments qu’il doit nécessairement prendre en compte, ce qui fait du bruit inutile une source de problèmes

Le conflit du contexte correspond à un état où des informations collectées en plusieurs étapes ou des descriptions d’outils contiennent des éléments contradictoires ou incompatibles entre eux
Des recherches de Microsoft et Salesforce montrent que, dans les conversations multi-tours, ce phénomène entraîne une baisse moyenne de 39 % des performances
Cela vient de la structure même du processus, où une hypothèse erronée est formulée dans la réponse initiale puis continue d’influencer excessivement les réponses suivantes
Le risque de conflit augmente lors de la connexion à des outils externes comme MCP

L’arrivée des contextes à un million de tokens a été perçue comme une innovation, mais en pratique elle accroît de nouveaux types d’erreurs comme l’empoisonnement, la distraction, la confusion et le conflit
Ces problèmes sont particulièrement critiques dans les systèmes d’agents où s’accumulent collecte d’informations multiples, enchaînements d’outils par étapes et longs historiques de conversation
Parmi les pistes de solution, on peut envisager des stratégies comme le chargement dynamique des outils et l’isolation du contexte, qui seront détaillées dans un prochain article