- Meta Superintelligence (MSI) présente, avec REFRAG, son premier résultat de recherche, une nouvelle approche qui améliore fortement l’architecture RAG (Retrieval-Augmented Generation) existante et atteint une vitesse de réponse 30 fois plus rapide
- L’idée clé consiste à convertir les fragments de documents non pas en tokens, mais en « chunk embeddings » que le LLM peut comprendre directement, puis à introduire un réseau de politique qui n’en restaure qu’une partie lorsque c’est nécessaire
- Cela permet de réduire fortement le cache KV et le coût de l’attention, de diminuer le TTFT (time to first token) pour améliorer l’UX, tout en réduisant les coûts d’exploitation
- L’article se concentre non pas sur une innovation de l’architecture du modèle, mais sur l’efficacité au niveau système et applicatif, en proposant une direction technologique capable de produire un ROI immédiat
- Cette approche contourne les limites de performance et les problèmes de coût des grands modèles, et montre un potentiel pour redéfinir à terme l’économie des produits IA
Contexte de publication du premier article de MSI
- Le laboratoire Meta Superintelligence (MSI) attire beaucoup l’attention grâce à des talents de tout premier plan et à des rémunérations hors norme
- Le fait que MSI ait choisi, pour son premier article, un sujet pratique lié au RAG (retrieval-augmented generation) est particulièrement inhabituel
- Le secteur s’attendait à ce que MSI se concentre sur l’amélioration des performances des modèles de base ou sur le développement de nouvelles architectures, mais le choix d’un sujet pratique, avec un impact économique immédiat, a surpris
- Le RAG est un composant central des services commerciaux tels que les agents IA, la recherche, le support client ou le résumé, et la latence comme le coût des réponses ont un effet direct sur le modèle économique
- Cet article propose une méthode capable de réduire massivement les coûts et la latence des produits IA fondés sur le RAG, et donc de générer un ROI immédiat
Architecture technique de REFRAG
- 1. Dans l’approche RAG classique, des documents pertinents (chunks) sont récupérés depuis une base vectorielle, puis le LLM traite tous les chunks sous forme de tokens complets
- 2. Avec REFRAG, les documents sont découpés en chunks (environ 128 tokens), puis chacun est converti par un encodeur léger en un vecteur d’embedding unique, projeté dans l’espace d’embedding du LLM
- Ces embeddings peuvent être pré-calculés et mis en cache
- 3. Lorsqu’un utilisateur envoie une requête, les chunks pertinents sont récupérés
- la majorité des chunks est transmise au LLM sous forme d’embeddings, et
- seul un très petit nombre de chunks, sélectionné par une policy basée sur le RL, est développé en séquence complète de tokens
- 4. Ce réseau de politique est optimisé avec un objectif de RL (apprentissage par renforcement), afin de sélectionner les chunks à développer dans un budget limité
- il est entraîné avec une fonction de récompense qui réduit la perplexité tout en maintenant la qualité de génération
- 5. Le LLM génère ensuite le texte en combinant la séquence de tokens reçue (requête + chunks développés) avec plusieurs vecteurs uniques jouant le rôle d’emplacements réservés (chunks compressés)
- Au final, le LLM peut produire la même sortie avec une entrée plus courte, en recevant « requête + une partie des tokens restaurés + plusieurs vecteurs d’embedding »
- Cette architecture réduit fortement l’usage du cache, le volume de calcul d’attention et le temps de réponse initial
Portée technique et enseignement central
- Le point essentiel de l’article est que le réseau de politique compresse efficacement les chunks moins importants dans le processus RAG et ne développe que les parties importantes
- L’insight plus profond est le suivant : si les embeddings sont déjà générés dans les couches internes du LLM, il n’est pas nécessaire de les réécrire en langage naturel ; on peut les transmettre directement
- En d’autres termes, en traitant directement les données dans un espace de représentation déjà compréhensible par le LLM, on élimine une étape de compression redondante et on augmente fortement la vitesse sans perte de précision
- Cette idée peut se résumer ainsi : au lieu d’optimiser les tokens, il faut changer la notion même de token
Importance actuelle dans la chaîne de valeur de l’IA
- Comparaison de deux vecteurs d’innovation dans le domaine des LLM
- Innovation au niveau modèle : nouvelles architectures, modèles plus grands, nouveau préentraînement
- risque élevé, rendement élevé, horizon long, capital important requis
- Efficacité au niveau application/système : optimisation de l’inférence, techniques de recherche, orchestration
- risque plus faible, ROI immédiat, monétisation directe possible
- REFRAG s’inscrit clairement dans la seconde direction, avec un ROI explicite via l’augmentation du throughput par GPU, la baisse des coûts d’exploitation et l’amélioration de l’UX
- Les entreprises et équipes produit peuvent tester immédiatement les effets concrets d’une adoption de REFRAG : plus de throughput par GPU, moins de coûts d’infrastructure, meilleure UX
- Cette approche peut être combinée indépendamment avec les retrievers et rerankers, ce qui permet une intégration flexible dans les pipelines RAG existants
- Dans un contexte de concurrence accrue sur le marché des bases vectorielles, et alors que circulent des rumeurs de vente autour de Pinecone, l’amélioration de l’efficacité du RAG apparaît comme un sujet de recherche particulièrement opportun
Limites prévisibles
- Complexité de l’entraînement et de l’ingénierie
- Il faut ajouter un encodeur + une projection et entraîner le LLM à comprendre les embeddings (préentraînement de reconstruction + SFT)
- La policy sélective est un problème de RL stable, mais elle ajoute de la complexité de développement
- Limites de la compression
- Une compression trop agressive finit par dégrader la qualité en aval
- Il existe un compromis entre la taille des embeddings et la fréquence de développement
- Problème de fraîcheur des données
- Les embeddings de chunks pré-calculés conviennent bien à un corpus statique
- Pour des données qui changent fréquemment, il faut un pipeline de recalcul des embeddings ou une stratégie hybride
- Considérations selon les cas d’usage
- Le résumé reste approximatif ; pour les tâches où une précision spécifique est cruciale (raisonnement juridique, citations exactes, faits médicaux sensibles), une évaluation prudente est nécessaire
- Dans ces cas, un budget de compression plus faible peut être requis
Conclusion et implications
- La question centrale de l’article : « Et si, au lieu d’optimiser le coût des tokens, on utilisait un type de token complètement différent ? »
- En « redéfinissant la notion de token lu par le LLM », REFRAG atténue les limites structurelles du RAG et propose une innovation pratique capable de modifier la structure de coût des produits IA
- Potentiel d’extension à l’avenir
- Si le LLM peut devenir natif des embeddings côté READ, peut-il aussi le devenir côté WRITE et ainsi accélérer les agents d’un facteur 30 dans leur ensemble ?
- Le coût par token des modèles d’embedding est presque nul : s’agit-il d’un déplacement vers une autre architecture pour réduire drastiquement le prix du token ? Quels en sont les inconvénients ?
- REFRAG rappelle que toute innovation ne vient pas nécessairement de modèles plus grands
- À grande échelle, rendre le RAG moins cher et plus rapide est un levier direct sur l’économie du produit
- Le secteur récompensera les équipes capables d’opérationnaliser ce type de victoire
1 commentaires
Avis sur Hacker News
Ce papier n’a rien à voir avec la superintelligence ; il s’agit d’un article publié après le changement de nom par une équipe qui travaillait dessus avant la réorganisation. Beaucoup pensaient que Meta ne publierait plus d’articles et deviendrait comme OpenAI, mais Meta continue de publier rapidement des papiers et de diffuser des modèles à poids ouverts
Il est souligné que ce que Meta publie n’est pas de l’open source, mais des modèles à poids ouverts. Même ces poids sont publiés sous une licence plus restrictive qu’Apache 2
Il est souligné que MSL (cette équipe) ne se résume pas à quelques figures célèbres
Il y a de la confusion autour des différents sens donnés à RAG (Retrieval-Augmented Generation). Pour moi, RAG désigne un système où l’on transforme à l’avance les fragments d’un dépôt de documents défini en embeddings vectoriels, puis où l’on n’inclut dans le contexte que certains fragments selon le besoin. Cela peut aussi désigner, dans une interface de chat LLM, une fonction qui effectue une recherche web par mots-clés et injecte temporairement dans le contexte uniquement les documents pertinents. Je me demande ce qui se passera avec des fenêtres de contexte très longues. Si l’on met toutes les informations dans le contexte d’un coup, je crains une perte de diversité ; cela aidera peut-être la cohérence, mais au fond, décider quelles informations garder ou écarter ne reste-t-il pas une forme de RAG ? J’aimerais entendre l’explication de quelqu’un d’expert
Techniquement, RAG désigne toute technique où une génération est assistée par une recherche externe. Mais, en pratique, le terme est souvent utilisé dans un sens plus restreint pour parler d’approches avec base de données vectorielle. Mettre toutes les informations dans une immense fenêtre de contexte n’est pas réaliste. Le traitement prend plus de temps et, lorsqu’il y a trop d’informations, le modèle peine à retrouver ce dont il a besoin. Au final, quand on a besoin de faible latence ou qu’on a des contraintes mémoire, l’approche RAG « classique » reste utile
Le point essentiel, c’est l’adaptabilité. La principale différence entre RAG et non-RAG est de savoir si l’on connaît la question au moment de créer l’index, ainsi que la présence ou non de comparaison croisée entre les documents récupérés et de décomposition de la question. Le non-RAG, avec par exemple des transformers non causaux multicouches, regarde simultanément la question et les documents, ce qui est plus général et plus facile à optimiser avec le deep learning. En revanche, RAG est rapide et moins coûteux, mais comme il utilise des outils externes, l’apprentissage end-to-end est difficile (il faut des méthodes d’apprentissage par récompense comme le RL). En RAG, les documents sont indépendants et l’on ne connaît pas la question au moment de l’indexation. Il existe aussi des formes hybrides où l’on injecte la sortie du RAG dans un système non-RAG. Le non-RAG nécessite de très grands jeux de données, mais ses performances continuent de progresser lorsqu’on l’entraîne sur l’ensemble du web. Il est même plus simple d’améliorer les performances sur des cas spécifiques. RAG a des atouts pour le contrôle des entrées et les données structurées, et il est utile pour éviter les pires cas, mais il est difficile d’y améliorer le meilleur cas
Je ne pense pas qu’on puisse mettre une quantité infinie d’informations dans le contexte. D’après mon expérience, GPT-5 commence vite à se perdre après quelques pages. Même avec une telle quantité de contenu, il ne s’en souvient pas vraiment
En pratique, je ne pense pas que quelqu’un dise réellement que « RAG est mort ». Il est impossible de mettre tout l’internet dans le contexte d’un LLM, et plus on en met, plus le coût augmente
Meta avait des talents de tout premier plan, mais semble ne pas avoir pleinement exploité leur potentiel. À mon avis, l’entreprise pourrait aller plus loin dans la course à l’IA si elle cessait d’être obsédée par les métriques de résultats et donnait plus d’autonomie aux chercheurs. La nouvelle équipe donne l’impression d’être surtout composée de personnes fortes en structuration et davantage intéressées par l’argent. En réalité, cette tendance existe clairement dans tous les grands laboratoires de la Big Tech. Ces organisations évitent trop le risque. Si la Silicon Valley en est là aujourd’hui, c’est aussi parce qu’on laissait autrefois plus de liberté aux chercheurs. Moi y compris, des centaines de chercheurs en ML accepteraient volontiers de travailler pour un salaire bien inférieur si on leur donnait autonomie et ressources. Meta devrait utiliser plus diversement l’argent qu’elle investit actuellement et revenir aux principes qui ont permis à la Silicon Valley de grandir
À mon avis, plus il y a de concurrents, plus on voit un phénomène où, au sommet, restent moins les « vrais cracks » que les gens qui savent le mieux jouer avec le système. On le voit aussi bien dans les candidatures chez les GAFAM que dans des cas comme Tinder
Le fait de laisser de la liberté aux chercheurs dans les labos d’entreprise ne semble pas réellement aider l’activité commerciale. Quand on regarde des cas comme Bell Labs ou Microsoft Research, on voit énormément de travaux remarquables, mais très peu liés au cœur du business de l’entreprise. L’idée est que la recherche en IA n’apporte pas à Meta de revenus ou d’avantage concurrentiel concret, mais fait surtout progresser la connaissance collective. Du point de vue d’une entreprise, cette approche convient mal. Et si l’on devient chercheur aujourd’hui dans le monde académique, on est aussi occupé par l’encadrement des étudiants et les réunions
Je doute de l’idée selon laquelle le rythme des progrès de l’IA aurait ralenti. Sur quoi se fonde cette évaluation ? C’est une affirmation difficile à accepter pour quelqu’un qui suit réellement le domaine
Même sous la pression chez Meta, je me suis toujours demandé si des mathématiciens payés à prix d’or avaient réellement le temps de penser librement
Le choix d’Alex Wang m’a paru intéressant. Il existe beaucoup de CEO d’excellents laboratoires d’IA, et Wang a certes des qualités, mais au fond, c’était surtout MTurk et le bon timing du marché. Il ne semble pas adapté au poste de CEO chargé de mener vers l’AGI
Il est surprenant que le premier sujet de recherche du nouveau labo porte sur un RAG concret et pragmatique. En général, on s’attend plutôt à ce qu’un nouveau labo publie d’abord quelques papiers sur les sujets que chacun poursuivait déjà, puis que des travaux vraiment innovants apparaissent une fois que le travail d’équipe et les synergies se sont suffisamment consolidés. Donner trop d’importance au « premier papier » risque au contraire de créer une pression dès le départ
Je me demande si l’article issu de l’équipe Superintelligence de Meta a réellement été conçu directement par cette équipe, ou s’il s’agit d’un papier publié après le transfert d’effectifs déjà au travail sur le sujet. J’imagine que la première hypothèse est la plus probable
Partage d’une vidéo YouTube qui résume l’explication du papier sur RAG lien vidéo
Dans les graphes et tableaux du papier, je n’ai pas immédiatement vu de comparaison avec des techniques classiques et simples de compression de contexte, comme TF-IDF ou le simple chevauchement de mots. Pourtant, en production, ces méthodes très simples sont cruciales lorsqu’elles offrent des performances presque identiques avec 10 fois moins d’informations
J’ai déjà eu une idée similaire et tenté de l’implémenter. À l’avenir, il faudra un framework qui simplifie cela pour permettre aux LLM de traiter plus facilement différents formats d’embeddings
Présentation d’un lien vers un projet open source lié à RAG REFRAG
Le titre de l’article est trop sensationnaliste ; je voudrais un titre plus informatif et moins orienté clickbait