19 points par davespark 2026-01-11 | Aucun commentaire pour le moment. | Partager sur WhatsApp

En 2026, pensez-vous toujours que « recherche sémantique = embeddings + base de données vectorielle » ?

Argument principal

Dans la recherche sémantique, il ne suffit pas de bien gérer la similarité (similarity) :
une très bonne recherche doit satisfaire correctement ces trois éléments à la fois :
① représentation (representation) + ② similarité (similarity) + ③ critères de correspondance (match criteria).

La recherche vectorielle fondée sur les embeddings fonctionne bien pour ① et ②, mais elle serait très faible sur ③ (inclure/exclure les résultats strictement dans le périmètre exact souhaité par l’utilisateur).

Exemple clé :
Requête : « fruit rond et rouge qui pousse sur un arbre »
Résultats d’un bon système d’embeddings (souvent affichés en tête) :

  1. pomme
  2. orange
  3. ⚾️ balle de baseball

→ L’utilisateur ne veut absolument pas une balle de baseball, mais l’embedding l’inclut quand même car « rond et rouge » est jugé assez proche
Impossible à résoudre avec un simple seuil (cela varie selon le domaine et selon la requête)

Alternative proposée : des taxonomies hiérarchiques bien gérées (Managed Taxonomies)

Comme dans cet exemple de mobilier Wayfair :

Baby & Kids  
└─ Toddler & Kids Playroom  
   └─ Indoor Play  
      └─ Rocking Horses  
         └─ Novelty Rocking Horses  

Si on les superpose à BM25 avec un tokenizer hiérarchique :

  • catégorie plus spécifique (enfant) = df plus faible → score BM25 automatiquement plus élevé
  • possibilité d’ajuster précisément le périmètre dans un langage compréhensible par l’utilisateur (en remontant vers le parent/grand-parent, le champ s’élargit progressivement)
  • si l’on automatise la classification avec des LLM, la charge de maintenance diminue aussi fortement

Conclusion :
Les embeddings sont puissants, mais ils ne sont pas indispensables.
Avec des compétences déjà solides dans le domaine pour les catégories/la classification, plus l’aide des LLM,
il serait possible de construire une recherche sémantique bien plus précise et offrant une meilleure expérience utilisateur qu’avec des embeddings.

Particulièrement recommandé à ceux qui travaillent sur la recherche spécialisée par domaine, comme l’e-commerce, le médical, le juridique ou les bibliothèques.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.