33 points par GN⁺ 2025-07-17 | 1 commentaires | Partager sur WhatsApp

> L’avenir du RAG ne réside pas dans des « fenêtres de contexte plus grandes », mais dans une « meilleure recherche »

  • L’affirmation « RAG Is Dead » ne s’applique qu’aux implémentations RAG simplistes à la mode 2023 ; le vrai problème est la recherche fondée sur un vecteur unique, qui entraîne une forte perte d’information
  • Les métriques d’évaluation IR existantes ne sont pas adaptées au RAG, et il faut de nouveaux critères d’évaluation centrés sur la couverture factuelle, la diversité et la pertinence
  • Les moteurs de recherche pour le RAG évoluent au-delà du simple matching vers une approche capable de comprendre les consignes et de sélectionner les documents pertinents par raisonnement
  • Les modèles de late interaction de style ColBERT conservent des représentations au niveau du token sans compression de l’information, ce qui permet à de petits modèles de surpasser de grands modèles
  • Au lieu de chercher un embedding parfait, les index multiples pour des représentations variées et une architecture de routage intelligente deviennent le nouveau standard

Why the future of RAG lies in better retrieval, not bigger context windows

Réponse à l’affirmation « RAG est mort »

> Part 1. I don’t use RAG, I just retrieve documents - Ce qui est mort, c’est la recherche vectorielle simpliste, pas le RAG lui-même

  • Hamel et Ben Clavié affirment que le RAG n’est pas mort et qu’il est plutôt temps de faire évoluer l’architecture de recherche
  • La méthode consistant à placer des documents dans une base vectorielle et à les rechercher par similarité cosinus est vieillissante et provoque une forte perte d’information
  • Comme les informations des LLM restent figées après l’entraînement, l’injection d’information via la recherche (RAG) reste essentielle
  • Augmenter uniquement la fenêtre de contexte n’est pas une manière efficace d’injecter toutes les informations

De mauvaises métriques d’évaluation

> Part 2. Modern IR Evals For RAG - Explique pourquoi les métriques IR traditionnelles ne conviennent pas au RAG, et présente FreshStack

  • Nandan Thakur souligne que les métriques traditionnelles d’évaluation de la recherche d’information (IR) ne sont pas adaptées au RAG
    • Les benchmarks comme BEIR n’optimisent que la recherche du document classé premier
    • Le RAG doit prendre en compte la couverture des faits, la diversité des points de vue et la pertinence contextuelle
    • Il propose FreshStack comme nouveau système d’évaluation à cet effet

Des moteurs de recherche qui raisonnent

> Part 3. Optimizing Retrieval with Reasoning Models - Conception de moteurs de recherche capables de comprendre les consignes et de raisonner

  • Le système Rank1 d’Orion Weller permet à un moteur de recherche de comprendre des consignes complexes comme « un document contenant une métaphore sur la confidentialité des données »
  • Au lieu de se limiter à un simple calcul de similarité, il génère une trace de raisonnement explicite (reasoning trace) pour justifier son jugement de pertinence
  • Il devient ainsi possible de retrouver, par compréhension et raisonnement, des documents introuvables avec les systèmes de recherche traditionnels

Le potentiel des modèles de late interaction

> Part 4. Late Interaction Models For RAG - Préserver les représentations sans perte d’information grâce à des architectures comme ColBERT

  • Antoine Chaffin montre, via des modèles fondés sur la late interaction comme ColBERT, que :
    • les documents ne sont pas compressés en un vecteur unique, et l’information au niveau du token est conservée
    • en conséquence, un modèle de 150M de paramètres peut dans certains cas surpasser un modèle de 7B en capacité de raisonnement
  • L’élément clé est une structure de représentation qui préserve l’information au lieu de la supprimer

Il faut plusieurs cartes, pas une seule

> Part 5. RAG with Multiple Representations - Améliorer la recherche grâce à des index multiples selon l’objectif

  • Bryan Bischof et Ayush Chaurasia soulignent qu’un seul embedding ne peut pas répondre à des objectifs de recherche variés
    • Exemple : lors d’une recherche d’image
      • une description textuelle
      • une interprétation poétique
      • des images similaires
        sont recherchées chacune dans un index différent
  • Conclusion : au lieu de chercher un embedding parfait, il faut des index multiples adaptés à différentes formes de représentation, combinés à un système de routage intelligent

La stratégie d’avenir du RAG

Les quatre éléments suivants sont présentés comme l’avenir du RAG :

  • Construire de nouveaux critères d’évaluation adaptés aux cas d’usage
  • Des moteurs de recherche qui comprennent les consignes et raisonnent
  • Des structures qui représentent l’information telle quelle sans la compresser
  • Une approche combinant des index spécialisés par objectif et un routage intelligent

Annotated Notes From the Series

Cette série se compose de cinq parties et propose un résumé avec des horodatages sur les slides principales. Voir les liens de chaque partie

Partie Titre Description
Part 1 I don’t use RAG, I just retrieve documents Ce qui est mort, c’est la recherche vectorielle simpliste, pas le RAG lui-même
Part 2 Modern IR Evals For RAG Explique pourquoi les métriques IR traditionnelles ne conviennent pas au RAG, et présente FreshStack
Part 3 Optimizing Retrieval with Reasoning Models Conception de moteurs de recherche capables de comprendre les consignes et de raisonner
Part 4 Late Interaction Models For RAG Préserver les représentations sans perte d’information grâce à des architectures comme ColBERT
Part 5 RAG with Multiple Representations Améliorer la recherche grâce à des index multiples selon l’objectif

1 commentaires

 
ide127 2025-07-18

« Ne cherchez pas l’embedding parfait, mais un système à index multiples + routage intelligent adapté à différentes formes de représentation »

Parce que ce n’est pas si simple...