29 points par GN⁺ 2025-02-06 | 2 commentaires | Partager sur WhatsApp
  • Convertir des PDF en segments de texte (chunking) est l’un des problèmes les plus pénibles lorsqu’on construit un système RAG à grande échelle
  • Il existe à la fois des solutions open source et commerciales, mais il reste difficile d’obtenir des résultats satisfaisants en matière de précision, de scalabilité et de coût
    • Exemple : nv-ingest de NVIDIA exige de déployer plusieurs services dans un cluster Kubernetes et repose sur une approche complexe très gourmande en ressources GPU
    • Certains services commerciaux souffrent aussi d’un manque de précision au regard du coût, ou voient leurs tarifs devenir astronomiques dès qu’on veut les appliquer à de gros volumes de documents

Arrivée de Gemini Flash 2.0

  • Des tentatives ont existé pour utiliser de grands modèles (LLM) pour l’OCR, la conversion de PDF, etc., mais dans la pratique les économies étaient limitées et les erreurs imprévisibles nombreuses
    • Exemple : des cas ont été signalés où GPT-4o ajoutait des cellules inutiles dans des tableaux
  • Gemini Flash 2.0 est considéré comme nettement meilleur que la version 1.5 Flash en précision comme en efficacité économique
    • Selon des tests internes, il atteint une précision OCR presque parfaite tout en restant très bon marché
  • L’expérience développeur (Developer Experience) de Google est parfois jugée un peu en retrait par rapport à OpenAI, mais son positionnement tarifaire raisonnable constitue un atout majeur

Comparaison des coûts et de la précision

  • Pour convertir des PDF en Markdown, Gemini Flash 2.0 se distingue par son coût de traitement par page
    • 2.0 Flash : environ 6 000 pages/$1
    • 2.0 Flash Lite : environ 12 000 pages/$1 (avant test)
    • 1.5 Flash : environ 10 000 pages/$1
    • AWS Textract : environ 1 000 pages/$1
    • OpenAI 4o-mini : environ 450 pages/$1, etc.
  • En précision d’extraction de tableaux, le modèle interne de Reducto arrivait en tête avec 0,90, tandis que Gemini 2.0 Flash et Anthropic Sonnet se situaient autour de 0,84
    • Les cas où Gemini semblait se tromper relevaient le plus souvent de problèmes de structure ou de format, et plus rarement d’une mauvaise lecture des chiffres eux-mêmes
  • Pour l’extraction du texte hors tableaux, les résultats sont quasiment parfaits

Segmentation des documents (chunking) et usage des LLM

  • Pour l’intégrer dans un pipeline RAG, il faut découper le texte extrait en unités sémantiques
  • Des recherches montrent qu’un grand LLM peut repérer les frontières textuelles de façon plus naturelle
  • Jusqu’ici, le coût était toutefois trop élevé pour une application réelle sur de très grands ensembles documentaires
  • Avec Gemini Flash 2.0, il devient possible d’appliquer à faible coût un découpage en segments fondé sur des LLM, même à des corpus massifs
    • Exemple : un corpus PDF de 100 millions de pages pourrait être traité pour environ 5 000 $
  • Exemple simple de prompt :

    OCR the following page into Markdown. Tables should be formatted as HTML.
    Do not sorround your output with triple backticks.

    Chunk the document into sections of roughly 250 - 1000 words. Our goal is
    to identify parts of the page with same semantic theme. These chunks will
    be embedded and used in a RAG pipeline.

    Surround the chunks with <chunk> </chunk> html tags.

Le problème des Bounding Boxes

  • Il faut conserver les informations de position du texte dans un PDF (par ex. les Bounding Boxes) afin de pouvoir fournir à l’utilisateur des éléments de preuve précis
  • La perte de ces informations de position lors de la conversion en Markdown constitue un gros inconvénient
  • Certaines recherches ont montré que les LLM pouvaient avoir une compréhension spatiale des images et des documents, mais à l’heure actuelle les modèles Gemini ne fournissent pas encore de Bounding Boxes précises
  • Google pourrait résoudre ce point en renforçant les données de mise en page documentaire via un entraînement supplémentaire ou un fine-tuning

Pourquoi c’est important

  • Une solution peu coûteuse et précise pour l’extraction et la segmentation de PDF est un élément clé pour simplifier les pipelines d’indexation documentaire à grande échelle et en améliorer la scalabilité
  • Si les problèmes de parsing, de chunking et de Bounding Boxes sont résolus, le traitement documentaire basé sur les LLM deviendra bien plus simple
  • On peut s’attendre à voir émerger prochainement de nombreuses bibliothèques open source abouties, offrant une base facile à exploiter pour des entreprises et des développeurs très divers
  • Toute personne disposant d’informations sur le programme de crédits AI Startup de Google est invitée à prendre contact

Notes

  • [1] Une image d’exemple comparant Reducto, Gemini et le PDF d’origine est jointe
  • [2] Calcul du coût de Gemini Flash 2.0 : coût d’image en entrée de $0.00009675, coût de sortie de $0.0000525 pour 400 tokens, soit une estimation d’environ 6 379 pages/$1

2 commentaires

 
jacde 2025-02-07

En termes de coût comme de performances, le découpage par agent semble pouvoir être assez efficace.

 
ragingwind 2025-02-06

La concurrence est rude sur le marché de la conversion vers un format compatible avec les LLM.