Les embeddings sont sous-estimés (2024)

(technicalwriting.dev)

2 points par GN⁺ 2025-05-13 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Les embeddings offrent récemment un potentiel de progrès révolutionnaire dans le domaine de la rédaction technique
Ils ont la particularité de renvoyer un tableau numérique de dimension fixe, quelle que soit la taille du texte d’entrée
Ce tableau numérique permet une comparaison mathématique entre des textes arbitraires
Les embeddings calculent la distance entre les significations des textes dans un espace multidimensionnel, ce qui permet des usages variés comme les recommandations par similarité, l’analyse sémantique, etc.
À l’avenir, les sites de documentation technique pourraient publier leurs données d’embedding, ce qui devrait élargir les nouveaux outils et les cas d’usage communautaires

Vue d’ensemble de la technologie d’embedding fondée sur le machine learning

Dans les technologies de machine learning, contrairement aux modèles de génération de texte, les embeddings ont le potentiel d’avoir un impact révolutionnaire sur la rédaction technique
Ces dernières années, l’usage des embeddings est devenu bien plus accessible
Grâce aux embeddings, les rédacteurs techniques peuvent effectuer des comparaisons et analyses sémantiques entre différents textes

Un embedding prend en entrée un texte (mot, phrase, ensemble de documents, etc.) et renvoie un tableau numérique de taille fixe
Quelle que soit la longueur du texte d’entrée, il produit toujours des données de même taille
Cela rend possible une comparaison mathématique même entre des textes arbitraires de longueurs différentes

Il est possible de générer des embeddings en quelques lignes de code via les principaux fournisseurs de services
Selon le modèle utilisé, la taille du tableau d’embedding varie : dans le cas de Gemini, 768 valeurs sont renvoyées, et dans le cas de Voyage AI, 1024
Comme la signification des embeddings diffère totalement selon le fournisseur ou le modèle, ils ne sont pas interopérables

La génération d’embeddings en elle-même n’est pas très coûteuse
On estime que le processus consomme moins de ressources de calcul qu’un modèle de génération de texte, mais davantage d’informations seront nécessaires à l’avenir pour évaluer son impact environnemental

Le modèle le plus adapté dépend notamment de sa capacité à prendre en charge de grands volumes de données en entrée
En 2024, le voyage-3 de Voyage AI offre la limite d’entrée la plus élevée
Il est important de choisir un modèle adapté à l’objectif et aux besoins

Chaque valeur du tableau numérique d’embedding correspond à une coordonnée dans un espace multidimensionnel, où les caractéristiques du texte sont représentées par une position sémantique
Par exemple, une opération comme king - man + woman ≈ queen montre qu’il est possible de représenter des relations sémantiques
Les caractéristiques de chaque dimension de l’espace d’embedding sont, pour la plupart, obscures et abstraites
Ce processus permet à la machine d’apprendre le sens et d’inférer la signification des textes

Les embeddings générés sont stockés pour chaque texte (par exemple, chaque page) dans une base de données ou un système équivalent
En calculant la distance mathématique entre deux embeddings (au moyen de l’algèbre linéaire), il est possible d’évaluer leur similarité sémantique
Avec des bibliothèques comme NumPy ou scikit-learn, il est peu nécessaire d’implémenter soi-même des formules complexes

Sur les sites de documentation technique, les embeddings sont utilisés efficacement pour les fonctions de recommandation de pages associées
Après avoir généré un embedding pour chaque page, on peut recommander des documents liés sémantiquement en regroupant les pages ayant une forte similarité numérique
Il suffit de régénérer l’embedding à chaque modification du contenu d’une page, ce qui offre une excellente efficacité
Les résultats obtenus sur la documentation [Sphinx] ont montré des performances positives

À l’avenir, les sites de documentation pourraient fournir des données d’embedding via une API REST ou des well-known URIs
Cela permettrait à la communauté de développer divers outils et services applicatifs

Il est fascinant de pouvoir relier la notion d’espace à plusieurs centaines de dimensions au travail quotidien
L’adoption des embeddings laisse entrevoir un potentiel de progrès majeur pour la maintenance documentaire et l’extension des fonctionnalités