Pourquoi l’extraction de données depuis des PDF reste si difficile

(arstechnica.com)

3 points par GN⁺ 2025-03-20 | 1 commentaires | Partager sur WhatsApp

Les limites de l’OCR (reconnaissance optique de caractères)

Les fichiers PDF contiennent des données importantes, notamment dans la recherche scientifique et les archives gouvernementales, mais leur format figé les rend difficiles à lire et à analyser pour les machines
Le PDF est un format conçu pour la mise en page imprimée, et n’est donc pas adapté à l’analyse numérique
Beaucoup de PDF contiennent des images d’informations, ce qui nécessite un logiciel d’OCR pour les convertir en données
Dans le cas de documents anciens ou manuscrits, les performances de l’OCR chutent encore davantage

Le problème des données non structurées

Environ 80 à 90 % des données des organisations dans le monde sont stockées sous forme non structurée, souvent dans des PDF
L’extraction de données est particulièrement difficile avec des mises en page à deux colonnes, des tableaux, des graphiques et des scans de mauvaise qualité
Cela pose notamment de gros problèmes pour la recherche scientifique, la conservation des documents historiques, le service client et l’accessibilité à la documentation technique dans les systèmes d’IA

Impact selon les secteurs

Cela affecte le fonctionnement des institutions publiques, comme les archives administratives, les tribunaux, la police et les services sociaux
Dans les secteurs dépendants de l’information, comme l’assurance et la banque, la conversion des données issues de PDF consomme du temps et des ressources

Histoire des technologies OCR

Dans les années 1970, Ray Kurzweil a développé un système commercial d’OCR fondé sur des algorithmes de correspondance de motifs
La Kurzweil Reading Machine offrait une fonction de reconnaissance de texte pour les personnes malvoyantes
Les systèmes OCR traditionnels reconnaissent des motifs de contraste pour les convertir en caractères
Leurs performances se dégradent avec les polices complexes, les mises en page multicolonnes et les tableaux
L’OCR traditionnel produit des erreurs plus prévisibles, donc plus faciles à corriger, mais conserve des limites structurelles

L’essor de l’OCR fondé sur l’IA

Les LLM multimodaux (grands modèles de langage) extraient des données en combinant image et texte
Les modèles d’OpenAI, Google ou Meta peuvent reconnaître à la fois les éléments visuels d’un document et son contexte textuel
Alors que l’OCR traditionnel repose sur la correspondance de motifs au niveau des caractères, l’IA traite le document en tenant compte de sa mise en page et de son contexte
Textract d’Amazon relève d’une approche OCR traditionnelle, tandis que les LLM peuvent analyser les documents dans un contexte plus large
Ils gèrent mieux les mises en page complexes, les tableaux et les légendes

Nouvelles tentatives d’OCR fondé sur les LLM

La société française d’IA Mistral a lancé Mistral OCR, une API de traitement documentaire fondée sur les LLM
L’objectif est d’extraire texte et images à partir de documents à la mise en page complexe
Des problèmes de performance apparaissent : échec du traitement des tableaux dans des documents anciens et erreurs sur les chiffres
Des problèmes surviennent aussi dans la reconnaissance de l’écriture manuscrite → l’IA génère alors parfois du contenu inventé (hallucinations)
Gemini 2.0 de Google offre actuellement les meilleures performances, avec moins d’erreurs même sur des documents complexes

Les problèmes de l’OCR fondé sur les LLM

Les LLM étant des modèles probabilistes, le risque d’erreur reste élevé
Quand une mise en page se répète dans le document, certaines lignes peuvent être omises
Les LLM peuvent échouer à distinguer le prompt utilisateur du contenu du document, et produire une mauvaise interprétation
Une mauvaise correspondance de valeurs dans un tableau peut provoquer des erreurs critiques, notamment dans la finance, le droit et la santé
Le problème de génération arbitraire de texte impose encore une relecture humaine

Les défis à venir

Il n’existe toujours pas de solution OCR parfaite
Google, OpenAI et d’autres améliorent les performances via des produits d’IA sensibles au contexte
Les entreprises d’IA espèrent aussi récupérer des données d’entraînement en extrayant les données contenues dans les PDF
Si l’IA parvient à traiter parfaitement les données des PDF, cela pourrait ouvrir une nouvelle ère pour l’analyse de données

1 commentaires

sixmen 2025-03-20

« Le PDF n’est pas adapté à l’analyse numérique, car il s’agit d’un format conçu pour une mise en page destinée à l’impression. »

Je pense que le HWP présente un problème similaire. Je considère toujours HWP comme un excellent logiciel, mais il est fondamentalement destiné à la publication, donc son analyse est difficile.

À l’inverse, Word est médiocre quand il s’agit de produire des documents prêts à être imprimés, mais il permet de se concentrer davantage sur le contenu, et c’est peut-être pour cela qu’il s’est finalement mieux adapté à l’ère du web et de l’IA.