20 points par xguru 2025-05-29 | 2 commentaires | Partager sur WhatsApp
  • Un outil open source qui permet de rechercher et gérer de façon unifiée des données multimodales comme des images, des PDF et des vidéos
    • Optimisé pour le traitement de documents techniques et visuels par rapport aux approches RAG classiques
  • S'appuie sur les embeddings ColPali pour traiter une page entière comme une image et fournir une recherche sémantique capable de comprendre la mise en page, la typographie et le contexte visuel
  • Permet de créer un graphe de connaissances spécialisé par domaine pouvant relier des entités entre plusieurs documents, avec prise en charge de prompts système personnalisés ou préentraînés
  • Permet de rechercher différents types de documents via une API unique, notamment PDF, images et vidéos, avec prise en charge de MCP
  • La fonction d'extraction de métadonnées est rapide et extensible, avec prise en charge des bounding boxes, de la classification, etc.
  • Possibilité d'intégration aux workflows avec Google Suite, Slack, Confluence, etc.
  • Inclut aussi une fonction de génération basée sur un cache KV (Cache-Augmented-Generation) pour accélérer la génération à partir des documents
  • Les fonctions de base sont proposées en open source sous licence MIT, ce qui permet de démarrer gratuitement ; certaines fonctions avancées sont payantes et proposées dans l'espace de noms ee

Présentation des principaux concepts et fonctionnalités

  • Recherche multimodale (ColPali)

    • Chaque page PDF est traitée comme une image, avec création d'une représentation multivecteur à l'échelle de la page plutôt qu'au niveau d'un simple token texte
    • Permet aussi de comprendre et rechercher le sens des images, PDF, vidéos et structures visuelles (tableaux, schémas, mise en forme, etc.)
    • Prise en charge de requêtes multimodales unifiées via un endpoint unique
  • Graphe de connaissances (Knowledge Graphs)

    • Création d'un graphe de connaissances spécialisé par domaine avec une seule ligne de code
    • Utilisation possible de prompts préconfigurés ou personnalisés
  • Extraction de métadonnées rapide et extensible (Rules Processing)

    • Extraction automatique des bounding boxes, labels, informations de classification dans les documents
    • Traitement rapide et fiable même pour de gros volumes de documents
  • Intégrations variées (Integrations)

    • Prise en charge d'intégrations directes avec Google Workspace, Slack, Confluence, etc.
  • Génération basée sur le cache (Cache-Augmented-Generation)

    • Création d'un cache KV par document pour accélérer la génération
    • Utile dans les environnements avec de nombreuses requêtes répétées

2 commentaires

 
blizard4479 2025-05-29

J’avais testé ça il y a quelques mois pour voir si je pouvais l’utiliser, mais au final ça demandait bien plus de ressources GPU que prévu et c’était aussi nettement plus lent, donc c’était difficile à adopter pour une petite entreprise. Même avec 2 GPU A10, les recherches prenaient entre 30 secondes et 1 minute, c'était fou,,

 
[Ce commentaire a été masqué.]