LEAF : 97 % des performances des embeddings d’OpenAI avec 23 M de paramètres, fonctionne uniquement sur CPU

(aisparkup.com)

19 points par davespark 2025-11-27 | 1 commentaires | Partager sur WhatsApp

LEAF (Lightweight Embedding Alignment Framework) est un modèle d’embedding développé par MongoDB Research qui utilise une technique de distillation de connaissances pour résoudre les problèmes de coût et de vitesse des systèmes RAG (Retrieval-Augmented Generation). Alors que les modèles d’embedding haute performance exigeaient jusqu’ici des serveurs GPU, LEAF permet à un petit modèle de 23 M de paramètres d’atteindre 97 % des performances de text-embedding-3-large d’OpenAI tout en fonctionnant uniquement sur CPU.

Contexte et problème

Dans les systèmes RAG, l’indexation des documents peut être lente, mais les réponses aux requêtes utilisateur doivent arriver en quelques centaines de millisecondes.
L’utilisation de modèles haute performance rend le coût des GPU difficile à supporter, tandis que le passage à des modèles low cost entraîne une baisse des performances.
LEAF résout ce problème via la « compatibilité modèle enseignant-étudiant ».
Au lieu d’aligner toutes les couches comme dans les méthodes de distillation classiques, LEAF n’aligne que la sortie finale (l’embedding). Cela permet d’indexer les documents avec un grand modèle enseignant, puis de traiter rapidement les requêtes avec un petit modèle étudiant sur CPU, tout en réutilisant l’index existant lors d’un changement de modèle.
L’entraînement peut se faire sur un seul GPU A100 sans étiquetage des données, ce qui le rend plus accessible.

Modèles publiés et performances

MongoDB a publié deux modèles sous licence Apache 2.0 :

mdbr-leaf-ir : modèle optimisé pour la recherche / le RAG. Score de 53,55 sur le benchmark BEIR (au-dessus d’OpenAI small à 51,08, et 97 % du score de large à 55,43).
mdbr-leaf-mt : modèle généraliste (classification / clustering). Score de 63,97 sur MTEB v2 (proche d’OpenAI small à 64,56), meilleure performance sous 30 M de paramètres.

Ces modèles peuvent traiter 120 requêtes par seconde sur un CPU à 2 cœurs et n’utilisent que 87 Mo de mémoire, ce qui permet un fonctionnement hors ligne sur smartphone ou appareil IoT.

Conclusion et implications

LEAF démocratise les embeddings haute performance en réduisant la dépendance aux GPU, et facilite la mise en œuvre de RAG pour les startups ou dans des environnements d’edge computing.
Sa limite tient à une perte de performance de 3 % par rapport au modèle d’origine, mais celle-ci reste négligeable dans la plupart des cas d’usage réels.
Les modèles et la recette d’entraînement peuvent être téléchargés sur Hugging Face, avec une adaptation facile via fine-tuning sur des données métier.

1 commentaires

kaydash 2025-11-28

Les 300M de bge-m3 et de gemma sont déjà performants, et ne sont-ils pas déjà assez petits ?