Expérience sur la mémoire des agents IA : les connaissances synthétisées dégradent au contraire les performances
(blog.clawsouls.ai)Voici les résultats d’une expérience concrète sur la manière de doter un agent IA d’une mémoire.
Quatre configurations de mémoire ont été données au même agent IA (Claude), puis les mêmes 20 questions lui ont été posées à propos d’un véritable projet logiciel.
Résultats (sur 5) :
• Hybride (expérience + synthèse) : 4.95
• Mémoire expérientielle (logs bruts) : 4.55
• Référence de base (sans mémoire) : 3.30
• Mémoire synthétique (résumé structuré) : 2.65
La découverte la plus surprenante : une mémoire synthétique soigneusement organisée a obtenu un score inférieur à l’absence totale de mémoire.
Les auteurs appellent cela l’« effet de surconfiance » : des connaissances proprement résumées donnent à l’agent une confiance infondée et réduisent sa capacité à reconnaître qu’il ne sait pas. À l’inverse, des traces expérientielles brutes préservent des indices d’incertitude, ce qui conduit l’agent à un raisonnement plus honnête.
Article (prépublication) : https://doi.org/10.5281/zenodo.18802214
Données de l’expérience (publiques) : https://github.com/clawsouls/experiential-memory-dataset
4 commentaires
C’est quelque chose que je ressentais déjà de façon empirique, mais la mémoire synthétique est encore bien plus désastreuse que je ne le pensais.
Exactement. Moi aussi, au début, je pensais que la mémoire synthétique serait au moins meilleure que la baseline, donc j’ai été surpris en voyant les résultats.
En l’analysant, j’ai compris que le point clé était la « préservation de l’incertitude ». Dans les logs bruts, il reste des traces comme « j’ai essayé ça, mais ça n’a pas marché » ou « je ne connais pas la cause », si bien que l’agent répond qu’il ne sait pas quand il ne sait pas. Dans le résumé, en revanche, tout ce contexte disparaît, et il finit au contraire par donner avec assurance des réponses erronées.
Dans ce cas, est-ce que cela changerait quelque chose si l’on structurait la mémoire synthétique pour qu’elle contienne le processus de ces tâches, ainsi que le contenu des échecs et des réussites ?
C’est une bonne question. En réalité, la condition « hybride » de notre expérience allait précisément dans ce sens — une configuration où un résumé structuré était fourni avec des journaux d’expérience bruts.
Au final, c’est l’hybride qui a obtenu le meilleur score, avec 4,95/5,0. Quand on ne donnait que le résumé, on était à 2,65, mais en y ajoutant des traces du processus comme « échec », « cause inconnue », les faiblesses du résumé étaient au contraire compensées.
La conclusion est donc que « le résumé en soi n’est pas mauvais ; il faut simplement y inclure aussi le processus et les incertitudes ».
Mais comme N=1, des recherches complémentaires sont nécessaires pour savoir si cela peut être utilisé de façon générale auprès de profils d’utilisateurs variés.