- Convertir des PDF en segments de texte (
chunking) est l’un des problèmes les plus pénibles lorsqu’on construit un système RAG à grande échelle - Il existe à la fois des solutions open source et commerciales, mais il reste difficile d’obtenir des résultats satisfaisants en matière de précision, de scalabilité et de coût
- Exemple : nv-ingest de NVIDIA exige de déployer plusieurs services dans un cluster Kubernetes et repose sur une approche complexe très gourmande en ressources GPU
- Certains services commerciaux souffrent aussi d’un manque de précision au regard du coût, ou voient leurs tarifs devenir astronomiques dès qu’on veut les appliquer à de gros volumes de documents
Arrivée de Gemini Flash 2.0
- Des tentatives ont existé pour utiliser de grands modèles (LLM) pour l’OCR, la conversion de PDF, etc., mais dans la pratique les économies étaient limitées et les erreurs imprévisibles nombreuses
- Exemple : des cas ont été signalés où GPT-4o ajoutait des cellules inutiles dans des tableaux
- Gemini Flash 2.0 est considéré comme nettement meilleur que la version 1.5 Flash en précision comme en efficacité économique
- Selon des tests internes, il atteint une précision OCR presque parfaite tout en restant très bon marché
- L’expérience développeur (Developer Experience) de Google est parfois jugée un peu en retrait par rapport à OpenAI, mais son positionnement tarifaire raisonnable constitue un atout majeur
Comparaison des coûts et de la précision
- Pour convertir des PDF en Markdown, Gemini Flash 2.0 se distingue par son coût de traitement par page
- 2.0 Flash : environ 6 000 pages/$1
- 2.0 Flash Lite : environ 12 000 pages/$1 (avant test)
- 1.5 Flash : environ 10 000 pages/$1
- AWS Textract : environ 1 000 pages/$1
- OpenAI 4o-mini : environ 450 pages/$1, etc.
- En précision d’extraction de tableaux, le modèle interne de Reducto arrivait en tête avec 0,90, tandis que Gemini 2.0 Flash et Anthropic Sonnet se situaient autour de 0,84
- Les cas où Gemini semblait se tromper relevaient le plus souvent de problèmes de structure ou de format, et plus rarement d’une mauvaise lecture des chiffres eux-mêmes
- Pour l’extraction du texte hors tableaux, les résultats sont quasiment parfaits
Segmentation des documents (chunking) et usage des LLM
- Pour l’intégrer dans un pipeline RAG, il faut découper le texte extrait en unités sémantiques
- Des recherches montrent qu’un grand LLM peut repérer les frontières textuelles de façon plus naturelle
- Jusqu’ici, le coût était toutefois trop élevé pour une application réelle sur de très grands ensembles documentaires
- Avec Gemini Flash 2.0, il devient possible d’appliquer à faible coût un découpage en segments fondé sur des LLM, même à des corpus massifs
- Exemple : un corpus PDF de 100 millions de pages pourrait être traité pour environ 5 000 $
- Exemple simple de prompt :
OCR the following page into Markdown. Tables should be formatted as HTML.
Do not sorround your output with triple backticks.Chunk the document into sections of roughly 250 - 1000 words. Our goal is
to identify parts of the page with same semantic theme. These chunks will
be embedded and used in a RAG pipeline.Surround the chunks with <chunk> </chunk> html tags.
Le problème des Bounding Boxes
- Il faut conserver les informations de position du texte dans un PDF (par ex. les Bounding Boxes) afin de pouvoir fournir à l’utilisateur des éléments de preuve précis
- La perte de ces informations de position lors de la conversion en Markdown constitue un gros inconvénient
- Certaines recherches ont montré que les LLM pouvaient avoir une compréhension spatiale des images et des documents, mais à l’heure actuelle les modèles Gemini ne fournissent pas encore de Bounding Boxes précises
- Google pourrait résoudre ce point en renforçant les données de mise en page documentaire via un entraînement supplémentaire ou un fine-tuning
Pourquoi c’est important
- Une solution peu coûteuse et précise pour l’extraction et la segmentation de PDF est un élément clé pour simplifier les pipelines d’indexation documentaire à grande échelle et en améliorer la scalabilité
- Si les problèmes de parsing, de chunking et de Bounding Boxes sont résolus, le traitement documentaire basé sur les LLM deviendra bien plus simple
- On peut s’attendre à voir émerger prochainement de nombreuses bibliothèques open source abouties, offrant une base facile à exploiter pour des entreprises et des développeurs très divers
- Toute personne disposant d’informations sur le programme de crédits AI Startup de Google est invitée à prendre contact
Notes
- [1] Une image d’exemple comparant Reducto, Gemini et le PDF d’origine est jointe
- [2] Calcul du coût de Gemini Flash 2.0 : coût d’image en entrée de $0.00009675, coût de sortie de $0.0000525 pour 400 tokens, soit une estimation d’environ 6 379 pages/$1
2 commentaires
En termes de coût comme de performances, le découpage par agent semble pouvoir être assez efficace.
La concurrence est rude sur le marché de la conversion vers un format compatible avec les LLM.