1 points par GN⁺ 2023-09-04 | 1 commentaires | Partager sur WhatsApp
  • Article présentant une nouvelle méthode pour améliorer la mémoire à long terme des grands modèles de langage (LLM) utilisés dans les systèmes de dialogue ouverts
  • Problème majeur des systèmes de dialogue ouverts : ils oublient les informations importantes dans les conversations de longue durée
  • Les solutions existantes consistent à entraîner un récupérateur ou un résumeur spécifique afin d’extraire les informations essentielles des conversations, mais cela prend beaucoup de temps et dépend fortement de la qualité des données annotées
  • La méthode proposée cherche à atténuer ce problème en utilisant des LLM pour générer récursivement des résumés ou des souvenirs
  • Cette méthode commence par faire mémoriser aux LLM de petits contextes de conversation, puis génère récursivement de nouveaux souvenirs à partir des souvenirs précédents et des contextes suivants
  • Avec l’aide du souvenir le plus récent, le LLM peut produire des réponses très cohérentes
  • La méthode a été évaluée avec ChatGPT et text-davinci-003, et les résultats expérimentaux sur des jeux de données publics largement utilisés montrent qu’elle permet de produire des réponses plus cohérentes dans des dialogues à long contexte
  • Cette méthode constitue une solution potentielle pour permettre aux LLM de modéliser des contextes extrêmement longs
  • Le code et les scripts de cette méthode seront publiés ultérieurement
  • Cette recherche a bénéficié du soutien de la Simons Foundation, des institutions membres et de tous les contributeurs

1 commentaires

 
GN⁺ 2023-09-04
Commentaires Hacker News
  • CodeRabbit utilise une approche similaire à celle discutée dans l’article pour la revue de PR, en générant un résumé de résumés pour chaque commit et en le mettant à jour progressivement à mesure que de nouveaux commits sont ajoutés.
  • Certains utilisateurs expriment des doutes sur l’efficacité de la construction de la mémoire dans « l’espace texte », suggérant que la mémoire serait mieux stockée dans un espace d’embedding dense capable de préserver l’ensemble du sens.
  • Des demandes de transparence et de reproductibilité dans la recherche apparaissent, certains utilisateurs refusant de croire les affirmations sans accès au code et aux scripts utilisés dans les expériences.
  • L’usage du résumé récursif a été appliqué avec succès dans un environnement de travail, en résumant des milliers de « briefings » en cinq paragraphes de texte et en classant chaque briefing par sujet et sous-sujet.
  • Certains utilisateurs ont rencontré des problèmes liés au résumé récursif, notamment lorsque certains éléments survivent à tous les tours de résumé et finissent par bloquer le modèle sur un sujet précis.
  • Des critiques visent le manque de détails dans l’article, que certains utilisateurs jugent décevant et peu utile pour les développeurs LLM.
  • Certains utilisateurs remettent en question la nouveauté de la technique, affirmant que le résumé de la mémoire des historiques de chat basés sur des LLM est déjà une technique établie, et que résumer chaque message comme proposé dans l’article constitue un goulot d’étranglement majeur en matière de performances.
  • Des interrogations portent sur l’implémentation qui ajoute le texte de mémoire de l’article comme partie du prompt, avec des suggestions en faveur d’un système de stockage/récupération qui ne consomme pas de tokens de fenêtre de contexte.
  • La technique discutée dans l’article est comparée à la fonctionnalité de mémoire « summary » de Langchain, qui existerait depuis mars 2023.