OCR4all - l’OCR pour tous

(ocr4all.org)

39 points par GN⁺ 2025-02-15 | 1 commentaires | Partager sur WhatsApp

Entièrement gratuit et open source. Aucun abonnement, aucune fonctionnalité payante, aucun code caché
S’applique avec flexibilité, du traitement de haute qualité de manuscrits complexes à la reconnaissance intégrale de texte à grande échelle pour des imprimés
Prise en charge puissante de l’annotation de mise en page et de texte
- Utilisez l’éditeur LAREX pour annoter manuellement, corriger ou comparer la mise en page et les éléments textuels
Entièrement compatible avec l’écosystème OCR-D
Conçu en pensant à l’utilisabilité : permet de créer via l’UI des workflows OCR complexes sans utiliser de code ni de CLI
Développement cross-platform facile : exécutable avec Docker et une seule commande, quel que soit l’OS

1 commentaires

GN⁺ 2025-02-15

Avis Hacker News

Les pipelines de segmentation complexes étaient nécessaires il y a quelques années, mais ils génèrent désormais beaucoup d’erreurs et privent les modèles d’un contexte important. Pour passer au manuscrit, le contexte est indispensable
- Pour déchiffrer des manuscrits historiques, les spécialistes diront qu’il faut le document entier
- Il faut aller jusqu’à la reconnaissance de texte, pas seulement la reconnaissance de caractères
- Évaluer les modèles avec le CER n’est pas une bonne approche
- La reconnaissance de texte est en train de répéter les erreurs de la traduction automatique d’il y a 15 ans
OCR4all est un logiciel destiné à la récupération et à la reconnaissance de texte numérique pour les imprimés du début de l’époque moderne
- Les types d’impression complexes et les mises en page irrégulières mettent à l’épreuve les capacités des logiciels classiques de reconnaissance de texte
- Cela semble être construit sur Calamari-OCR
OCR4all répond de manière claire et intuitive aux besoins des utilisateurs non techniques
- Il y a des instructions disant d’ouvrir un terminal sous Linux et de saisir des commandes
- On peut se demander en quoi cela aide les utilisateurs non techniques
Le Vision Framework d’Apple fournit une bibliothèque de reconnaissance de texte plus rapide et plus précise que Tesseract
- Il peut traiter presque tous les formats d’image
- Un outil CLI simple et un wrapper Python ont été créés
Combiner Tesseract et des LLM pour corriger les erreurs et améliorer la mise en forme constitue actuellement le meilleur compromis en matière de vitesse, d’efficacité et de précision
- Il est possible de modifier le texte de prompt en anglais pour prioriser certains aspects propres au document d’entrée
Une API OCR assistée par IA a été développée
- Elle combine Tesseract et Poppler-utils pour extraire intelligemment les segments de document
- Elle peut être facilement étendue à plusieurs modèles de Vision LLM
- Elle expose une API complète d’agent IA sous forme de conteneur Dockerisé
Ce workflow sert à numériser des documents imprimés historiques
- Il s’agit notamment de préserver d’anciennes annonces en caractères blackletter
OCR4all combine diverses solutions open source pour fournir un workflow de reconnaissance automatique de texte
- Cela semble reposer sur OCR-D, lui-même fondé sur Tesseract, Kraken, DUP-ocropy et Calamari-OCR
- Cela ressemble à une alternative open source à Transkribus
- eScriptorium est aussi une autre alternative
On se demande s’il s’agit d’un nouveau moteur OCR SOTA ou d’un outil qui utilise d’autres moteurs déjà connus
- Il serait préférable que la landing page soit plus claire
On pensait que l’OCR était en grande partie résolu avec Tesseract, mais quelqu’un cherche une bibliothèque ou une implémentation pour la compression MRC des PDF résultants
- Les produits commerciaux coûtent cher, et séparer, compresser puis recombiner les couches d’image reste un problème difficile

OCR4all - l’OCR pour tous

À lire aussi

1 commentaires

Avis Hacker News