MemAware – un benchmark qui mesure si un agent IA sait « ce qu’il sait »

En construisant un système de mémoire pour agent IA, nous avons constaté une limite commune aux benchmarks existants.

Les benchmarks de mémoire existants comme LoCoMo, LongMemEval et MemoryAgentBench testent tous la même chose : « Peut-on trouver la réponse dans les conversations passées ? » Ce n’est pas un test de système de mémoire, mais un test de performance d’un moteur de recherche.

Dans un véritable agent multi-session, la difficulté est de rappeler de lui-même un contexte passé que l’utilisateur n’a pas mentionné.

Exemple

Easy — cas où le chevauchement de mots-clés permet de trouver l’information par recherche :

« Mon chat Luna continue de griffer le nouveau canapé. Tu peux me recommander une méthode de dressage ? »
→ Il faut se souvenir que Luna est le chat de l’utilisateur

Medium — même domaine, mais avec des mots-clés différents :

« Pour être à l’heure à la réunion de 8 h 30, je devrais régler mon réveil sur quelle heure ? »
→ Il faut se souvenir du trajet domicile-travail de 45 minutes mentionné 6 semaines plus tôt. Une recherche sur « réveil réunion » ne fera pas ressortir la conversation sur le trajet

Hard — lien entre des domaines complètement différents :

« J’ai demandé mon relevé de notes universitaire de 2010, mais on me dit qu’il n’y a aucun dossier à mon nom actuel. »
→ Il faut se souvenir que l’utilisateur a changé de nom de famille, passant de Johnson à un autre. Il n’y a aucun chevauchement de mots-clés entre « relevé de notes » et « changement de nom »

Résultats

Baselines sur 900 questions (300 par niveau de difficulté) :

Méthode	Easy	Medium	Hard	Global
Sans mémoire	1.0%	0.7%	0.7%	0.8%
Recherche BM25	4.7%	1.7%	2.0%	2.8%
BM25 + recherche vectorielle	6.0%	3.7%	0.7%	3.4%

Constats clés :

La recherche BM25 aide à peine. Amélioration minime de 0.8% à 2.8%, pour une consommation de tokens 5 fois plus élevée
La recherche vectorielle tombe aussi à 0.7% sur Hard — identique à l’absence de mémoire. La similarité sémantique ne permet pas de relier « demande de relevé de notes » à « changement de nom »
La stratégie « toujours rechercher » ne fait que gaspiller du coût. Environ ~4.7K tokens consommés par question, pour la plupart du bruit non pertinent

Les mémoires actuelles basées sur le RAG (ChatGPT Memory, Mem0, MemGPT, etc.) suivent toutes le schéma « rechercher à chaque fois », et ces données montrent que cette approche a des limites structurelles lorsqu’il s’agit de contexte implicite.

Le benchmark s’appuie sur les données de session de LongMemEval (ICLR 2025, licence MIT) et adopte une architecture plugin permettant de tester son propre système de mémoire.

Je serais curieux d’avoir des avis sur des approches capables de résoudre le niveau Hard.

MemAware – un benchmark qui mesure si un agent IA sait « ce qu’il sait »

Exemple

Résultats

À lire aussi

Aucun commentaire pour le moment.