4 points par GN⁺ 2024-11-18 | 1 commentaires | Partager sur WhatsApp
  • voyage-multimodal-3 est un modèle de pointe capable de vectoriser les caractéristiques visuelles et textuelles de documents mêlant texte et images

    • Il capture les principaux éléments visuels dans des captures d’écran de PDF, de slides, de tableaux, de schémas, etc., supprimant ainsi le besoin d’un parsing complexe des documents
    • Sur 3 tâches de recherche multimodale utilisant 20 jeux de données, il montre une amélioration moyenne de 19,63 % de la précision de recherche
  • Comparaison avec les modèles existants

    • voyage-multimodal-3 affiche des performances supérieures de 41,44 % et 43,37 % en recherche de tableaux/schémas par rapport à OpenAI CLIP large et Cohere multimodal v3, respectivement
    • En recherche de captures d’écran de documents, il fait mieux de 26,54 % et 25,84 %, respectivement
    • En recherche texte-photo, il fait mieux de 6,55 % et 5,86 %, respectivement
  • Prise en charge des mélanges de texte et d’images

    • Les modèles d’embedding multimodaux existants traitent le texte et les images avec des réseaux séparés, mais voyage-multimodal-3 vectorise directement les deux modalités via le même encodeur Transformer
    • Cela préserve les relations contextuelles entre les informations visuelles et textuelles, ce qui permet de vectoriser des contenus mêlant texte et images, des captures d’écran de documents, des PDF à mise en page complexe, etc.
  • Recherche en mode mixte via captures d’écran

    • Les modèles de type CLIP voient leurs performances baisser en recherche mixte à cause de l’écart entre les modalités
    • voyage-multimodal-3 obtient les meilleures performances pour toutes les proportions de captures d’écran et capture réellement le contenu sémantique des captures
  • Détails de l’évaluation

    • voyage-multimodal-3 a été évalué sur 20 jeux de données multimodaux et 34 jeux de données de recherche textuelle
    • Pour chaque tâche, l’évaluation a été effectuée par rapport au meilleur modèle précédent
  • Résultats

    • En recherche multimodale, voyage-multimodal-3 surpasse OpenAI CLIP large, Amazon Titan Multimodal G1, Cohere multimodal v3, SigLIP So400M et ColQwen2 v0.1
    • En recherche textuelle standard, il fait respectivement 5,13 % et 13,70 % mieux que OpenAI v3 large et Cohere multimodal/English1 v3
  • Guide d’utilisation

    • voyage-multimodal-3 est disponible dès maintenant, et les 200 premiers millions de tokens sont offerts
    • Vous pouvez commencer avec le notebook d’exemple ou consulter la documentation pour en savoir plus

1 commentaires

 
GN⁺ 2024-11-18
Commentaire Hacker News
  • Les modèles CLIP ont tendance à moins bien fonctionner pour la recherche en modalité mixte. Cela est dû au fossé entre modalités, ce qui fait que les vecteurs de texte apparaissent plus proches de textes non pertinents
    • Gemini de Google a été conçu dès l’origine comme multimodal, ce qui améliore ce problème. Il a été préentraîné sur différentes modalités afin de pouvoir comprendre et raisonner efficacement sur tous les types d’entrées
  • Le projet ColiVara met en œuvre un modèle multimodal à l’aide de ColPali. J’aimerais comparer les performances de VoyageAI sur le leaderboard Vidore
  • Il est regrettable que les modèles commerciaux ne soient proposés que via API
  • Il faut adopter un regard critique sur les modèles disponibles uniquement via API. Une évaluation sur les textes non anglophones est particulièrement nécessaire
  • Il est important d’effectuer une analyse qualitative à partir de jeux de données réels. Les benchmarks quantitatifs sont utiles, mais rarement utilisés
  • C’est une manière intéressante d’envisager les embeddings multimodaux. Les performances sont évaluées selon la proportion de cas où l’entrée passe d’une modalité à une autre
  • Le moteur Voyage, dans l’API Python traditionnelle, tokenize des blocs de texte pour produire des chaînes de caractères. Ce modèle le fait via la vectorisation d’images
    • Des mots comme you et apple sont traités comme des tokens uniques, tandis qu’un terme plus complexe comme pikachu peut être découpé en pik-a-chu
  • Dans le Colab, les produits scalaires 0.428 et 0.498 sont décrits comme des « valeurs de similarité assez élevées ». On peut se demander s’il est possible de concevoir un système capable d’étiqueter les données avec assurance à partir d’un seuil de 0.4