5 points par 230kimi 2026-03-31 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Synthèse des résultats d’une expérimentation comparant les embeddings de texte et d’image de PDF d’articles scientifiques avec Gemini embedding-2-preview (embeddings multimodaux natifs).

∙	La similarité cosinus moyenne texte↔image sur une même page est de 0,642. Environ 36 % des informations visuelles — photos SEM, courbes de graphiques, disposition spatiale, etc. — ne sont pas reflétées dans les embeddings textuels  
∙	Lors de recherches avec 18 requêtes textuelles, l’index d’images (MRR 0,719) surpasse l’index textuel (0,631). Comme les termes clés se répètent sur plusieurs pages dans les articles scientifiques, les images offraient au contraire un meilleur pouvoir de discrimination entre les pages  
∙	L’embedding Multi combinant texte + image (MRR 0,650) est inférieur à l’image seule. Les caractéristiques des deux modalités ont tendance à se diluer  
∙	La recherche cross-modale au sein d’un même document (texte→image) échoue, avec un Hit@5 de 0 %. La similarité textuelle entre pages est en effet plus élevée que la similarité texte↔image au sein d’une même page  

Pour les documents riches en figures, l’indexation d’images est avantageuse, et il faut reconsidérer l’hypothèse par défaut du RAG consistant à « d’abord extraire le texte puis le vectoriser ».

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.