3 points par GN⁺ 2025-07-06 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Les modèles de langage de grande taille les plus récents ont introduit des fenêtres de contexte longues prenant en charge jusqu’à 1 million de tokens, ce qui a suscité l’espoir d’une amélioration spectaculaire des performances des agents
  • En pratique, les longs contextes ne produisent pas de meilleures réponses et provoquent au contraire des défaillances du système à cause de l’empoisonnement du contexte, des erreurs, de la confusion et des conflits
  • Les principaux problèmes sont l’empoisonnement du contexte (poisoning), la distraction du contexte (distraction), la confusion du contexte (confusion) et le conflit du contexte (clash)
  • Ces problèmes affectent encore davantage les agents dans les flux complexes impliquant de multiples sources d’information, des connexions à des outils et du raisonnement en plusieurs étapes
  • Un prochain article abordera des solutions concrètes et des stratégies d’évitement

L’importance de la gestion du contexte

  • Les grands modèles frontier récents proposent des fenêtres de contexte étendues prenant en charge jusqu’à 1 million de tokens
  • Beaucoup pensent qu’avec une grande fenêtre, on peut y faire entrer tous les outils, documents et consignes sans difficulté
  • En réalité, la surcharge de contexte provoque divers échecs, et cela devient particulièrement critique dans les applications de type agent

Empoisonnement du contexte (Context Poisoning)

  • L’empoisonnement du contexte correspond à l’introduction dans le contexte de hallucinations ou d’erreurs, ensuite référencées de manière répétée
  • Le rapport technique de Gemini 2.5 de Deep Mind décrit des cas où un état de jeu erroné reste dans les sections d’objectifs ou de résumé pendant une partie, poussant l’agent à répéter de mauvais comportements à cause de stratégies absurdes et d’objectifs impossibles
  • Ce contexte empoisonné brouille temporairement ou durablement le jugement de l’agent

Distraction du contexte (Context Distraction)

  • La distraction du contexte désigne le phénomène par lequel le contexte devient si long que le modèle se concentre excessivement sur le contexte plutôt que sur ce qu’il a appris pendant l’entraînement
  • Même avec la fenêtre de plus de 1M tokens de Gemini 2.5 Pro, dès que le contexte dépasse 100 000 tokens, le modèle tend à répéter l’historique passé et a du mal à élaborer des plans créatifs
  • Une étude de Databricks a confirmé que, pour Llama 3.1 405b, la précision chute déjà brutalement à 32 000 tokens
  • Cela suggère que des fenêtres extrêmement larges ne sont en pratique utiles que pour la synthèse (summarization) et la recherche de faits (retrieval)

Confusion du contexte (Context Confusion)

  • Lorsqu’on place trop d’outils ou de définitions dans le contexte, le modèle génère des réponses de mauvaise qualité, comme des appels d’outils inutiles ou inadaptés
  • D’après le Function-Calling Leaderboard de Berkeley, plus on fournit d’outils, plus les performances de tous les modèles baissent, avec des appels superflus fréquents
  • Dans l’article sur le benchmark GeoEngine, le modèle Llama 3.1 8b échoue lorsqu’on lui donne 46 outils, mais réussit lorsqu’on n’en fournit que 19
  • Les informations placées dans le contexte sont perçues par le modèle comme des éléments qu’il doit nécessairement prendre en compte, ce qui fait du bruit inutile une source de problèmes

Conflit du contexte (Context Clash)

  • Le conflit du contexte correspond à un état où des informations collectées en plusieurs étapes ou des descriptions d’outils contiennent des éléments contradictoires ou incompatibles entre eux
  • Des recherches de Microsoft et Salesforce montrent que, dans les conversations multi-tours, ce phénomène entraîne une baisse moyenne de 39 % des performances
  • Cela vient de la structure même du processus, où une hypothèse erronée est formulée dans la réponse initiale puis continue d’influencer excessivement les réponses suivantes
  • Le risque de conflit augmente lors de la connexion à des outils externes comme MCP

Conclusion et perspectives

  • L’arrivée des contextes à un million de tokens a été perçue comme une innovation, mais en pratique elle accroît de nouveaux types d’erreurs comme l’empoisonnement, la distraction, la confusion et le conflit
  • Ces problèmes sont particulièrement critiques dans les systèmes d’agents où s’accumulent collecte d’informations multiples, enchaînements d’outils par étapes et longs historiques de conversation
  • Parmi les pistes de solution, on peut envisager des stratégies comme le chargement dynamique des outils et l’isolation du contexte, qui seront détaillées dans un prochain article

Article suivant : « Comment corriger votre contexte »

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.