Les limites de l’OCR (reconnaissance optique de caractères)
- Les fichiers PDF contiennent des données importantes, notamment dans la recherche scientifique et les archives gouvernementales, mais leur format figé les rend difficiles à lire et à analyser pour les machines
- Le PDF est un format conçu pour la mise en page imprimée, et n’est donc pas adapté à l’analyse numérique
- Beaucoup de PDF contiennent des images d’informations, ce qui nécessite un logiciel d’OCR pour les convertir en données
- Dans le cas de documents anciens ou manuscrits, les performances de l’OCR chutent encore davantage
Le problème des données non structurées
- Environ 80 à 90 % des données des organisations dans le monde sont stockées sous forme non structurée, souvent dans des PDF
- L’extraction de données est particulièrement difficile avec des mises en page à deux colonnes, des tableaux, des graphiques et des scans de mauvaise qualité
- Cela pose notamment de gros problèmes pour la recherche scientifique, la conservation des documents historiques, le service client et l’accessibilité à la documentation technique dans les systèmes d’IA
Impact selon les secteurs
- Cela affecte le fonctionnement des institutions publiques, comme les archives administratives, les tribunaux, la police et les services sociaux
- Dans les secteurs dépendants de l’information, comme l’assurance et la banque, la conversion des données issues de PDF consomme du temps et des ressources
Histoire des technologies OCR
- Dans les années 1970, Ray Kurzweil a développé un système commercial d’OCR fondé sur des algorithmes de correspondance de motifs
- La Kurzweil Reading Machine offrait une fonction de reconnaissance de texte pour les personnes malvoyantes
- Les systèmes OCR traditionnels reconnaissent des motifs de contraste pour les convertir en caractères
- Leurs performances se dégradent avec les polices complexes, les mises en page multicolonnes et les tableaux
- L’OCR traditionnel produit des erreurs plus prévisibles, donc plus faciles à corriger, mais conserve des limites structurelles
L’essor de l’OCR fondé sur l’IA
- Les LLM multimodaux (grands modèles de langage) extraient des données en combinant image et texte
- Les modèles d’OpenAI, Google ou Meta peuvent reconnaître à la fois les éléments visuels d’un document et son contexte textuel
- Alors que l’OCR traditionnel repose sur la correspondance de motifs au niveau des caractères, l’IA traite le document en tenant compte de sa mise en page et de son contexte
- Textract d’Amazon relève d’une approche OCR traditionnelle, tandis que les LLM peuvent analyser les documents dans un contexte plus large
- Ils gèrent mieux les mises en page complexes, les tableaux et les légendes
Nouvelles tentatives d’OCR fondé sur les LLM
- La société française d’IA Mistral a lancé Mistral OCR, une API de traitement documentaire fondée sur les LLM
- L’objectif est d’extraire texte et images à partir de documents à la mise en page complexe
- Des problèmes de performance apparaissent : échec du traitement des tableaux dans des documents anciens et erreurs sur les chiffres
- Des problèmes surviennent aussi dans la reconnaissance de l’écriture manuscrite → l’IA génère alors parfois du contenu inventé (hallucinations)
- Gemini 2.0 de Google offre actuellement les meilleures performances, avec moins d’erreurs même sur des documents complexes
Les problèmes de l’OCR fondé sur les LLM
- Les LLM étant des modèles probabilistes, le risque d’erreur reste élevé
- Quand une mise en page se répète dans le document, certaines lignes peuvent être omises
- Les LLM peuvent échouer à distinguer le prompt utilisateur du contenu du document, et produire une mauvaise interprétation
- Une mauvaise correspondance de valeurs dans un tableau peut provoquer des erreurs critiques, notamment dans la finance, le droit et la santé
- Le problème de génération arbitraire de texte impose encore une relecture humaine
Les défis à venir
- Il n’existe toujours pas de solution OCR parfaite
- Google, OpenAI et d’autres améliorent les performances via des produits d’IA sensibles au contexte
- Les entreprises d’IA espèrent aussi récupérer des données d’entraînement en extrayant les données contenues dans les PDF
- Si l’IA parvient à traiter parfaitement les données des PDF, cela pourrait ouvrir une nouvelle ère pour l’analyse de données
1 commentaires
« Le PDF n’est pas adapté à l’analyse numérique, car il s’agit d’un format conçu pour une mise en page destinée à l’impression. »
Je pense que le HWP présente un problème similaire. Je considère toujours HWP comme un excellent logiciel, mais il est fondamentalement destiné à la publication, donc son analyse est difficile.
À l’inverse, Word est médiocre quand il s’agit de produire des documents prêts à être imprimés, mais il permet de se concentrer davantage sur le contenu, et c’est peut-être pour cela qu’il s’est finalement mieux adapté à l’ère du web et de l’IA.