voyage-multimodal-3 : un modèle d’embedding tout-en-un pour le texte, les images et les captures d’écran
(blog.voyageai.com)-
voyage-multimodal-3 est un modèle de pointe capable de vectoriser les caractéristiques visuelles et textuelles de documents mêlant texte et images
- Il capture les principaux éléments visuels dans des captures d’écran de PDF, de slides, de tableaux, de schémas, etc., supprimant ainsi le besoin d’un parsing complexe des documents
- Sur 3 tâches de recherche multimodale utilisant 20 jeux de données, il montre une amélioration moyenne de 19,63 % de la précision de recherche
-
Comparaison avec les modèles existants
- voyage-multimodal-3 affiche des performances supérieures de 41,44 % et 43,37 % en recherche de tableaux/schémas par rapport à OpenAI CLIP large et Cohere multimodal v3, respectivement
- En recherche de captures d’écran de documents, il fait mieux de 26,54 % et 25,84 %, respectivement
- En recherche texte-photo, il fait mieux de 6,55 % et 5,86 %, respectivement
-
Prise en charge des mélanges de texte et d’images
- Les modèles d’embedding multimodaux existants traitent le texte et les images avec des réseaux séparés, mais voyage-multimodal-3 vectorise directement les deux modalités via le même encodeur Transformer
- Cela préserve les relations contextuelles entre les informations visuelles et textuelles, ce qui permet de vectoriser des contenus mêlant texte et images, des captures d’écran de documents, des PDF à mise en page complexe, etc.
-
Recherche en mode mixte via captures d’écran
- Les modèles de type CLIP voient leurs performances baisser en recherche mixte à cause de l’écart entre les modalités
- voyage-multimodal-3 obtient les meilleures performances pour toutes les proportions de captures d’écran et capture réellement le contenu sémantique des captures
-
Détails de l’évaluation
- voyage-multimodal-3 a été évalué sur 20 jeux de données multimodaux et 34 jeux de données de recherche textuelle
- Pour chaque tâche, l’évaluation a été effectuée par rapport au meilleur modèle précédent
-
Résultats
- En recherche multimodale, voyage-multimodal-3 surpasse OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M et ColQwen2 v0.1
- En recherche textuelle standard, il fait respectivement 5,13 % et 13,70 % mieux que OpenAI v3 large et Cohere multimodal/English1 v3
-
Guide d’utilisation
- voyage-multimodal-3 est disponible dès maintenant, et les 200 premiers millions de tokens sont offerts
- Vous pouvez commencer avec le notebook d’exemple ou consulter la documentation pour en savoir plus
1 commentaires
Commentaire Hacker News
youetapplesont traités comme des tokens uniques, tandis qu’un terme plus complexe commepikachupeut être découpé enpik-a-chu