Recherche sémantique sans embeddings (Semantic Search Without Embeddings)
(softwaredoug.com)En 2026, pensez-vous toujours que « recherche sémantique = embeddings + base de données vectorielle » ?
Argument principal
Dans la recherche sémantique, il ne suffit pas de bien gérer la similarité (similarity) :
une très bonne recherche doit satisfaire correctement ces trois éléments à la fois :
① représentation (representation) + ② similarité (similarity) + ③ critères de correspondance (match criteria).
La recherche vectorielle fondée sur les embeddings fonctionne bien pour ① et ②, mais elle serait très faible sur ③ (inclure/exclure les résultats strictement dans le périmètre exact souhaité par l’utilisateur).
Exemple clé :
Requête : « fruit rond et rouge qui pousse sur un arbre »
Résultats d’un bon système d’embeddings (souvent affichés en tête) :
- pomme
- orange
- ⚾️ balle de baseball
→ L’utilisateur ne veut absolument pas une balle de baseball, mais l’embedding l’inclut quand même car « rond et rouge » est jugé assez proche
Impossible à résoudre avec un simple seuil (cela varie selon le domaine et selon la requête)
Alternative proposée : des taxonomies hiérarchiques bien gérées (Managed Taxonomies)
Comme dans cet exemple de mobilier Wayfair :
Baby & Kids
└─ Toddler & Kids Playroom
└─ Indoor Play
└─ Rocking Horses
└─ Novelty Rocking Horses
Si on les superpose à BM25 avec un tokenizer hiérarchique :
- catégorie plus spécifique (enfant) = df plus faible → score BM25 automatiquement plus élevé
- possibilité d’ajuster précisément le périmètre dans un langage compréhensible par l’utilisateur (en remontant vers le parent/grand-parent, le champ s’élargit progressivement)
- si l’on automatise la classification avec des LLM, la charge de maintenance diminue aussi fortement
Conclusion :
Les embeddings sont puissants, mais ils ne sont pas indispensables.
Avec des compétences déjà solides dans le domaine pour les catégories/la classification, plus l’aide des LLM,
il serait possible de construire une recherche sémantique bien plus précise et offrant une meilleure expérience utilisateur qu’avec des embeddings.
Particulièrement recommandé à ceux qui travaillent sur la recherche spécialisée par domaine, comme l’e-commerce, le médical, le juridique ou les bibliothèques.
Aucun commentaire pour le moment.