RAG n’est pas mort
(hamel.dev)> L’avenir du RAG ne réside pas dans des « fenêtres de contexte plus grandes », mais dans une « meilleure recherche »
- L’affirmation « RAG Is Dead » ne s’applique qu’aux implémentations RAG simplistes à la mode 2023 ; le vrai problème est la recherche fondée sur un vecteur unique, qui entraîne une forte perte d’information
- Les métriques d’évaluation IR existantes ne sont pas adaptées au RAG, et il faut de nouveaux critères d’évaluation centrés sur la couverture factuelle, la diversité et la pertinence
- Les moteurs de recherche pour le RAG évoluent au-delà du simple matching vers une approche capable de comprendre les consignes et de sélectionner les documents pertinents par raisonnement
- Les modèles de late interaction de style ColBERT conservent des représentations au niveau du token sans compression de l’information, ce qui permet à de petits modèles de surpasser de grands modèles
- Au lieu de chercher un embedding parfait, les index multiples pour des représentations variées et une architecture de routage intelligente deviennent le nouveau standard
Why the future of RAG lies in better retrieval, not bigger context windows
Réponse à l’affirmation « RAG est mort »
> Part 1. I don’t use RAG, I just retrieve documents - Ce qui est mort, c’est la recherche vectorielle simpliste, pas le RAG lui-même
- Hamel et Ben Clavié affirment que le RAG n’est pas mort et qu’il est plutôt temps de faire évoluer l’architecture de recherche
- La méthode consistant à placer des documents dans une base vectorielle et à les rechercher par similarité cosinus est vieillissante et provoque une forte perte d’information
- Comme les informations des LLM restent figées après l’entraînement, l’injection d’information via la recherche (RAG) reste essentielle
- Augmenter uniquement la fenêtre de contexte n’est pas une manière efficace d’injecter toutes les informations
De mauvaises métriques d’évaluation
> Part 2. Modern IR Evals For RAG - Explique pourquoi les métriques IR traditionnelles ne conviennent pas au RAG, et présente FreshStack
- Nandan Thakur souligne que les métriques traditionnelles d’évaluation de la recherche d’information (IR) ne sont pas adaptées au RAG
- Les benchmarks comme BEIR n’optimisent que la recherche du document classé premier
- Le RAG doit prendre en compte la couverture des faits, la diversité des points de vue et la pertinence contextuelle
- Il propose FreshStack comme nouveau système d’évaluation à cet effet
Des moteurs de recherche qui raisonnent
> Part 3. Optimizing Retrieval with Reasoning Models - Conception de moteurs de recherche capables de comprendre les consignes et de raisonner
- Le système Rank1 d’Orion Weller permet à un moteur de recherche de comprendre des consignes complexes comme « un document contenant une métaphore sur la confidentialité des données »
- Au lieu de se limiter à un simple calcul de similarité, il génère une trace de raisonnement explicite (reasoning trace) pour justifier son jugement de pertinence
- Il devient ainsi possible de retrouver, par compréhension et raisonnement, des documents introuvables avec les systèmes de recherche traditionnels
Le potentiel des modèles de late interaction
> Part 4. Late Interaction Models For RAG - Préserver les représentations sans perte d’information grâce à des architectures comme ColBERT
- Antoine Chaffin montre, via des modèles fondés sur la late interaction comme ColBERT, que :
- les documents ne sont pas compressés en un vecteur unique, et l’information au niveau du token est conservée
- en conséquence, un modèle de 150M de paramètres peut dans certains cas surpasser un modèle de 7B en capacité de raisonnement
- L’élément clé est une structure de représentation qui préserve l’information au lieu de la supprimer
Il faut plusieurs cartes, pas une seule
> Part 5. RAG with Multiple Representations - Améliorer la recherche grâce à des index multiples selon l’objectif
- Bryan Bischof et Ayush Chaurasia soulignent qu’un seul embedding ne peut pas répondre à des objectifs de recherche variés
- Exemple : lors d’une recherche d’image
- une description textuelle
- une interprétation poétique
- des images similaires
sont recherchées chacune dans un index différent
- Exemple : lors d’une recherche d’image
- Conclusion : au lieu de chercher un embedding parfait, il faut des index multiples adaptés à différentes formes de représentation, combinés à un système de routage intelligent
La stratégie d’avenir du RAG
Les quatre éléments suivants sont présentés comme l’avenir du RAG :
- Construire de nouveaux critères d’évaluation adaptés aux cas d’usage
- Des moteurs de recherche qui comprennent les consignes et raisonnent
- Des structures qui représentent l’information telle quelle sans la compresser
- Une approche combinant des index spécialisés par objectif et un routage intelligent
Annotated Notes From the Series
Cette série se compose de cinq parties et propose un résumé avec des horodatages sur les slides principales. Voir les liens de chaque partie
| Partie | Titre | Description |
|---|---|---|
| Part 1 | I don’t use RAG, I just retrieve documents | Ce qui est mort, c’est la recherche vectorielle simpliste, pas le RAG lui-même |
| Part 2 | Modern IR Evals For RAG | Explique pourquoi les métriques IR traditionnelles ne conviennent pas au RAG, et présente FreshStack |
| Part 3 | Optimizing Retrieval with Reasoning Models | Conception de moteurs de recherche capables de comprendre les consignes et de raisonner |
| Part 4 | Late Interaction Models For RAG | Préserver les représentations sans perte d’information grâce à des architectures comme ColBERT |
| Part 5 | RAG with Multiple Representations | Améliorer la recherche grâce à des index multiples selon l’objectif |
1 commentaires
« Ne cherchez pas l’embedding parfait, mais un système à index multiples + routage intelligent adapté à différentes formes de représentation »
Parce que ce n’est pas si simple...