Comment traiter des millions de PDF, et pourquoi Gemini 2.0 change tout

(sergey.fyi)

29 points par GN⁺ 2025-02-06 | 2 commentaires | Partager sur WhatsApp

Convertir des PDF en segments de texte (chunking) est l’un des problèmes les plus pénibles lorsqu’on construit un système RAG à grande échelle
Il existe à la fois des solutions open source et commerciales, mais il reste difficile d’obtenir des résultats satisfaisants en matière de précision, de scalabilité et de coût
- Exemple : nv-ingest de NVIDIA exige de déployer plusieurs services dans un cluster Kubernetes et repose sur une approche complexe très gourmande en ressources GPU
- Certains services commerciaux souffrent aussi d’un manque de précision au regard du coût, ou voient leurs tarifs devenir astronomiques dès qu’on veut les appliquer à de gros volumes de documents

Arrivée de Gemini Flash 2.0

Des tentatives ont existé pour utiliser de grands modèles (LLM) pour l’OCR, la conversion de PDF, etc., mais dans la pratique les économies étaient limitées et les erreurs imprévisibles nombreuses
- Exemple : des cas ont été signalés où GPT-4o ajoutait des cellules inutiles dans des tableaux
Gemini Flash 2.0 est considéré comme nettement meilleur que la version 1.5 Flash en précision comme en efficacité économique
- Selon des tests internes, il atteint une précision OCR presque parfaite tout en restant très bon marché
L’expérience développeur (Developer Experience) de Google est parfois jugée un peu en retrait par rapport à OpenAI, mais son positionnement tarifaire raisonnable constitue un atout majeur

Pour convertir des PDF en Markdown, Gemini Flash 2.0 se distingue par son coût de traitement par page
- 2.0 Flash : environ 6 000 pages/$1
- 2.0 Flash Lite : environ 12 000 pages/$1 (avant test)
- 1.5 Flash : environ 10 000 pages/$1
- AWS Textract : environ 1 000 pages/$1
- OpenAI 4o-mini : environ 450 pages/$1, etc.
En précision d’extraction de tableaux, le modèle interne de Reducto arrivait en tête avec 0,90, tandis que Gemini 2.0 Flash et Anthropic Sonnet se situaient autour de 0,84
- Les cas où Gemini semblait se tromper relevaient le plus souvent de problèmes de structure ou de format, et plus rarement d’une mauvaise lecture des chiffres eux-mêmes
Pour l’extraction du texte hors tableaux, les résultats sont quasiment parfaits

Pour l’intégrer dans un pipeline RAG, il faut découper le texte extrait en unités sémantiques
Des recherches montrent qu’un grand LLM peut repérer les frontières textuelles de façon plus naturelle
Jusqu’ici, le coût était toutefois trop élevé pour une application réelle sur de très grands ensembles documentaires
Avec Gemini Flash 2.0, il devient possible d’appliquer à faible coût un découpage en segments fondé sur des LLM, même à des corpus massifs
- Exemple : un corpus PDF de 100 millions de pages pourrait être traité pour environ 5 000 $
Exemple simple de prompt :

OCR the following page into Markdown. Tables should be formatted as HTML.
Do not sorround your output with triple backticks.

Chunk the document into sections of roughly 250 - 1000 words. Our goal is
to identify parts of the page with same semantic theme. These chunks will
be embedded and used in a RAG pipeline.

Surround the chunks with <chunk> </chunk> html tags.

Il faut conserver les informations de position du texte dans un PDF (par ex. les Bounding Boxes) afin de pouvoir fournir à l’utilisateur des éléments de preuve précis
La perte de ces informations de position lors de la conversion en Markdown constitue un gros inconvénient
Certaines recherches ont montré que les LLM pouvaient avoir une compréhension spatiale des images et des documents, mais à l’heure actuelle les modèles Gemini ne fournissent pas encore de Bounding Boxes précises
Google pourrait résoudre ce point en renforçant les données de mise en page documentaire via un entraînement supplémentaire ou un fine-tuning

Une solution peu coûteuse et précise pour l’extraction et la segmentation de PDF est un élément clé pour simplifier les pipelines d’indexation documentaire à grande échelle et en améliorer la scalabilité
Si les problèmes de parsing, de chunking et de Bounding Boxes sont résolus, le traitement documentaire basé sur les LLM deviendra bien plus simple
On peut s’attendre à voir émerger prochainement de nombreuses bibliothèques open source abouties, offrant une base facile à exploiter pour des entreprises et des développeurs très divers
Toute personne disposant d’informations sur le programme de crédits AI Startup de Google est invitée à prendre contact

[1] Une image d’exemple comparant Reducto, Gemini et le PDF d’origine est jointe
[2] Calcul du coût de Gemini Flash 2.0 : coût d’image en entrée de $0.00009675, coût de sortie de $0.0000525 pour 400 tokens, soit une estimation d’environ 6 379 pages/$1

jacde 2025-02-07

En termes de coût comme de performances, le découpage par agent semble pouvoir être assez efficace.

ragingwind 2025-02-06

La concurrence est rude sur le marché de la conversion vers un format compatible avec les LLM.