- Le premier modèle d’embedding entièrement multimodal, capable de mapper du texte, des images, des vidéos, de l’audio et des documents dans un espace d’embedding unique, est disponible en preview publique
- Basé sur l’architecture Gemini, il capture l’intention sémantique dans plus de 100 langues et prend en charge diverses tâches downstream comme le RAG, la recherche sémantique, l’analyse de sentiment et le clustering de données
- Grâce à la technique Matryoshka Representation Learning (MRL), les embeddings peuvent être réduits de façon flexible à partir de la dimension par défaut de 3072, ce qui permet d’ajuster l’équilibre entre performances et coûts de stockage
- Le modèle établit une nouvelle référence de performance sur les tâches texte, image et vidéo, tout en introduisant de nouvelles capacités d’embedding vocal
- Il est disponible immédiatement via l’API Gemini et Vertex AI, avec prise en charge de l’intégration avec des frameworks tiers majeurs comme LangChain, LlamaIndex et Weaviate
Nouvelles modalités et dimensions de sortie flexibles
- Basé sur Gemini, il exploite ses capacités de compréhension multimodale pour générer des embeddings de haute qualité sur différents types d’entrée
- Texte : prise en charge d’un contexte étendu jusqu’à 8192 tokens en entrée
- Image : traitement de jusqu’à 6 images par requête, avec prise en charge des formats PNG et JPEG
- Vidéo : prise en charge de vidéos jusqu’à 120 secondes aux formats MP4 et MOV
- Audio : embedding natif des données audio, sans conversion intermédiaire en texte
- Documents : embedding direct de PDF jusqu’à 6 pages
- Au-delà d’une seule modalité, il accepte aussi des entrées interleavées (par ex. image + texte) dans une seule requête, afin de capturer des relations complexes et subtiles entre différents types de médias
- La technique Matryoshka Representation Learning (MRL) permet de réduire dynamiquement les dimensions en imbriquant l’information de manière hiérarchique
- Réduction flexible à partir de la dimension par défaut de 3072 vers 1536, 768, etc.
- Pour une qualité optimale, l’utilisation des dimensions 3072, 1536 et 768 est recommandée
Performances de pointe
- Plus qu’une simple amélioration par rapport aux modèles legacy, il établit un nouveau standard de performance en profondeur multimodale
- Il surpasse les modèles de référence existants sur les tâches de texte, d’image et de vidéo, tout en introduisant de solides capacités d’embedding vocal
- Il offre des gains de performance mesurables et une couverture multimodale unique pour répondre à une grande variété de besoins en embedding
Extraire un sens plus profond des données — cas de partenaires en early access
- La technologie d’embedding est au cœur de nombreux produits Google, où elle alimente des usages allant de la context engineering pour le RAG à la gestion de données à grande échelle, en passant par la recherche et l’analyse
- Everlaw (Max Christoff, CTO) : adoption des embeddings Gemini pour aider les professionnels du droit à trouver les informations clés dans le processus de discovery juridique, avec amélioration de la précision et du rappel sur des millions de dossiers, ainsi que de nouvelles fonctions puissantes de recherche sur les images et la vidéo
- Sparkonomy (Guneet Singh, cofondateur) : utilisation comme fondation du Creator Economic Equality Engine, avec la multimodalité native permettant de réduire la latence jusqu’à 70 %, de presque doubler les scores de similarité sémantique texte-image et texte-vidéo de 0,4 à 0,8, et d’indexer des millions de minutes de vidéo avec une précision sans précédent
- Mindlid (Ertuğrul Çavuşoğlu, cofondateur) : excellente continuité d’API permettant une adoption immédiate avec un minimum de changements dans les workflows existants ; l’entreprise teste l’embedding de mémoire conversationnelle textuelle avec des embeddings audio et visuels, et a constaté une hausse de 20 % du top-1 recall dans son application de bien-être personnel
Premiers pas
- Le modèle Gemini Embedding 2 est disponible via l’API Gemini ou Vertex AI
- Un exemple de code en SDK Python montre comment embedder du texte, des images et de l’audio en un seul appel
- Des notebooks Colab interactifs sont disponibles pour l’API Gemini et Vertex AI
- Intégration prise en charge avec les principaux outils tiers, notamment LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB et Vector Search
Aucun commentaire pour le moment.