Gemini Embedding 2 : le premier modèle d’embedding multimodal natif

(blog.google)

14 points par GN⁺ 2026-03-11 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Le premier modèle d’embedding entièrement multimodal, capable de mapper du texte, des images, des vidéos, de l’audio et des documents dans un espace d’embedding unique, est disponible en preview publique
Basé sur l’architecture Gemini, il capture l’intention sémantique dans plus de 100 langues et prend en charge diverses tâches downstream comme le RAG, la recherche sémantique, l’analyse de sentiment et le clustering de données
Grâce à la technique Matryoshka Representation Learning (MRL), les embeddings peuvent être réduits de façon flexible à partir de la dimension par défaut de 3072, ce qui permet d’ajuster l’équilibre entre performances et coûts de stockage
Le modèle établit une nouvelle référence de performance sur les tâches texte, image et vidéo, tout en introduisant de nouvelles capacités d’embedding vocal
Il est disponible immédiatement via l’API Gemini et Vertex AI, avec prise en charge de l’intégration avec des frameworks tiers majeurs comme LangChain, LlamaIndex et Weaviate

Nouvelles modalités et dimensions de sortie flexibles

Basé sur Gemini, il exploite ses capacités de compréhension multimodale pour générer des embeddings de haute qualité sur différents types d’entrée
- Texte : prise en charge d’un contexte étendu jusqu’à 8192 tokens en entrée
- Image : traitement de jusqu’à 6 images par requête, avec prise en charge des formats PNG et JPEG
- Vidéo : prise en charge de vidéos jusqu’à 120 secondes aux formats MP4 et MOV
- Audio : embedding natif des données audio, sans conversion intermédiaire en texte
- Documents : embedding direct de PDF jusqu’à 6 pages
Au-delà d’une seule modalité, il accepte aussi des entrées interleavées (par ex. image + texte) dans une seule requête, afin de capturer des relations complexes et subtiles entre différents types de médias
La technique Matryoshka Representation Learning (MRL) permet de réduire dynamiquement les dimensions en imbriquant l’information de manière hiérarchique
- Réduction flexible à partir de la dimension par défaut de 3072 vers 1536, 768, etc.
- Pour une qualité optimale, l’utilisation des dimensions 3072, 1536 et 768 est recommandée

Plus qu’une simple amélioration par rapport aux modèles legacy, il établit un nouveau standard de performance en profondeur multimodale
Il surpasse les modèles de référence existants sur les tâches de texte, d’image et de vidéo, tout en introduisant de solides capacités d’embedding vocal
Il offre des gains de performance mesurables et une couverture multimodale unique pour répondre à une grande variété de besoins en embedding

La technologie d’embedding est au cœur de nombreux produits Google, où elle alimente des usages allant de la context engineering pour le RAG à la gestion de données à grande échelle, en passant par la recherche et l’analyse
Everlaw (Max Christoff, CTO) : adoption des embeddings Gemini pour aider les professionnels du droit à trouver les informations clés dans le processus de discovery juridique, avec amélioration de la précision et du rappel sur des millions de dossiers, ainsi que de nouvelles fonctions puissantes de recherche sur les images et la vidéo
Sparkonomy (Guneet Singh, cofondateur) : utilisation comme fondation du Creator Economic Equality Engine, avec la multimodalité native permettant de réduire la latence jusqu’à 70 %, de presque doubler les scores de similarité sémantique texte-image et texte-vidéo de 0,4 à 0,8, et d’indexer des millions de minutes de vidéo avec une précision sans précédent
Mindlid (Ertuğrul Çavuşoğlu, cofondateur) : excellente continuité d’API permettant une adoption immédiate avec un minimum de changements dans les workflows existants ; l’entreprise teste l’embedding de mémoire conversationnelle textuelle avec des embeddings audio et visuels, et a constaté une hausse de 20 % du top-1 recall dans son application de bien-être personnel

Le modèle Gemini Embedding 2 est disponible via l’API Gemini ou Vertex AI
Un exemple de code en SDK Python montre comment embedder du texte, des images et de l’audio en un seul appel
Des notebooks Colab interactifs sont disponibles pour l’API Gemini et Vertex AI
Intégration prise en charge avec les principaux outils tiers, notamment LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB et Vector Search