RAG n’est pas mort

(hamel.dev)

33 points par GN⁺ 2025-07-17 | 1 commentaires | Partager sur WhatsApp

> L’avenir du RAG ne réside pas dans des « fenêtres de contexte plus grandes », mais dans une « meilleure recherche »

L’affirmation « RAG Is Dead » ne s’applique qu’aux implémentations RAG simplistes à la mode 2023 ; le vrai problème est la recherche fondée sur un vecteur unique, qui entraîne une forte perte d’information
Les métriques d’évaluation IR existantes ne sont pas adaptées au RAG, et il faut de nouveaux critères d’évaluation centrés sur la couverture factuelle, la diversité et la pertinence
Les moteurs de recherche pour le RAG évoluent au-delà du simple matching vers une approche capable de comprendre les consignes et de sélectionner les documents pertinents par raisonnement
Les modèles de late interaction de style ColBERT conservent des représentations au niveau du token sans compression de l’information, ce qui permet à de petits modèles de surpasser de grands modèles
Au lieu de chercher un embedding parfait, les index multiples pour des représentations variées et une architecture de routage intelligente deviennent le nouveau standard

Why the future of RAG lies in better retrieval, not bigger context windows

> Part 1. I don’t use RAG, I just retrieve documents - Ce qui est mort, c’est la recherche vectorielle simpliste, pas le RAG lui-même

Hamel et Ben Clavié affirment que le RAG n’est pas mort et qu’il est plutôt temps de faire évoluer l’architecture de recherche
La méthode consistant à placer des documents dans une base vectorielle et à les rechercher par similarité cosinus est vieillissante et provoque une forte perte d’information
Comme les informations des LLM restent figées après l’entraînement, l’injection d’information via la recherche (RAG) reste essentielle
Augmenter uniquement la fenêtre de contexte n’est pas une manière efficace d’injecter toutes les informations

> Part 2. Modern IR Evals For RAG - Explique pourquoi les métriques IR traditionnelles ne conviennent pas au RAG, et présente FreshStack

Nandan Thakur souligne que les métriques traditionnelles d’évaluation de la recherche d’information (IR) ne sont pas adaptées au RAG
- Les benchmarks comme BEIR n’optimisent que la recherche du document classé premier
- Le RAG doit prendre en compte la couverture des faits, la diversité des points de vue et la pertinence contextuelle
- Il propose FreshStack comme nouveau système d’évaluation à cet effet

> Part 3. Optimizing Retrieval with Reasoning Models - Conception de moteurs de recherche capables de comprendre les consignes et de raisonner

Le système Rank1 d’Orion Weller permet à un moteur de recherche de comprendre des consignes complexes comme « un document contenant une métaphore sur la confidentialité des données »
Au lieu de se limiter à un simple calcul de similarité, il génère une trace de raisonnement explicite (reasoning trace) pour justifier son jugement de pertinence
Il devient ainsi possible de retrouver, par compréhension et raisonnement, des documents introuvables avec les systèmes de recherche traditionnels

> Part 4. Late Interaction Models For RAG - Préserver les représentations sans perte d’information grâce à des architectures comme ColBERT

Antoine Chaffin montre, via des modèles fondés sur la late interaction comme ColBERT, que :
- les documents ne sont pas compressés en un vecteur unique, et l’information au niveau du token est conservée
- en conséquence, un modèle de 150M de paramètres peut dans certains cas surpasser un modèle de 7B en capacité de raisonnement
L’élément clé est une structure de représentation qui préserve l’information au lieu de la supprimer

> Part 5. RAG with Multiple Representations - Améliorer la recherche grâce à des index multiples selon l’objectif

Bryan Bischof et Ayush Chaurasia soulignent qu’un seul embedding ne peut pas répondre à des objectifs de recherche variés
- Exemple : lors d’une recherche d’image
  - une description textuelle
  - une interprétation poétique
  - des images similaires
    sont recherchées chacune dans un index différent
Conclusion : au lieu de chercher un embedding parfait, il faut des index multiples adaptés à différentes formes de représentation, combinés à un système de routage intelligent

Les quatre éléments suivants sont présentés comme l’avenir du RAG :

Construire de nouveaux critères d’évaluation adaptés aux cas d’usage
Des moteurs de recherche qui comprennent les consignes et raisonnent
Des structures qui représentent l’information telle quelle sans la compresser
Une approche combinant des index spécialisés par objectif et un routage intelligent

Cette série se compose de cinq parties et propose un résumé avec des horodatages sur les slides principales. Voir les liens de chaque partie

Partie	Titre	Description
Part 1	I don’t use RAG, I just retrieve documents	Ce qui est mort, c’est la recherche vectorielle simpliste, pas le RAG lui-même
Part 2	Modern IR Evals For RAG	Explique pourquoi les métriques IR traditionnelles ne conviennent pas au RAG, et présente FreshStack
Part 3	Optimizing Retrieval with Reasoning Models	Conception de moteurs de recherche capables de comprendre les consignes et de raisonner
Part 4	Late Interaction Models For RAG	Préserver les représentations sans perte d’information grâce à des architectures comme ColBERT
Part 5	RAG with Multiple Representations	Améliorer la recherche grâce à des index multiples selon l’objectif

ide127 2025-07-18

« Ne cherchez pas l’embedding parfait, mais un système à index multiples + routage intelligent adapté à différentes formes de représentation »

Parce que ce n’est pas si simple...