RAG sur des articles PDF : le texte seul suffit-il ? — Expérimentation de recherche par embeddings a

Synthèse des résultats d’une expérimentation comparant les embeddings de texte et d’image de PDF d’articles scientifiques avec Gemini embedding-2-preview (embeddings multimodaux natifs).

∙	La similarité cosinus moyenne texte↔image sur une même page est de 0,642. Environ 36 % des informations visuelles — photos SEM, courbes de graphiques, disposition spatiale, etc. — ne sont pas reflétées dans les embeddings textuels  
∙	Lors de recherches avec 18 requêtes textuelles, l’index d’images (MRR 0,719) surpasse l’index textuel (0,631). Comme les termes clés se répètent sur plusieurs pages dans les articles scientifiques, les images offraient au contraire un meilleur pouvoir de discrimination entre les pages  
∙	L’embedding Multi combinant texte + image (MRR 0,650) est inférieur à l’image seule. Les caractéristiques des deux modalités ont tendance à se diluer  
∙	La recherche cross-modale au sein d’un même document (texte→image) échoue, avec un Hit@5 de 0 %. La similarité textuelle entre pages est en effet plus élevée que la similarité texte↔image au sein d’une même page

Pour les documents riches en figures, l’indexation d’images est avantageuse, et il faut reconsidérer l’hypothèse par défaut du RAG consistant à « d’abord extraire le texte puis le vectoriser ».

2 commentaires

mammal 2026-03-31

Comment cela se compare-t-il à ColPali ?

230kimi 2026-03-31

En anglais, il semble clairement que colpali soit bien meilleur. En revanche, en coréen ou dans les langues autres que l’anglais, la précision chute nettement, snif snif

RAG sur des articles PDF : le texte seul suffit-il ? — Expérimentation de recherche par embeddings avec Gemini embedding 002

À lire aussi

2 commentaires