39 points par GN⁺ 2025-02-15 | 1 commentaires | Partager sur WhatsApp
  • Entièrement gratuit et open source. Aucun abonnement, aucune fonctionnalité payante, aucun code caché
  • S’applique avec flexibilité, du traitement de haute qualité de manuscrits complexes à la reconnaissance intégrale de texte à grande échelle pour des imprimés
  • Prise en charge puissante de l’annotation de mise en page et de texte
    • Utilisez l’éditeur LAREX pour annoter manuellement, corriger ou comparer la mise en page et les éléments textuels
  • Entièrement compatible avec l’écosystème OCR-D
  • Conçu en pensant à l’utilisabilité : permet de créer via l’UI des workflows OCR complexes sans utiliser de code ni de CLI
  • Développement cross-platform facile : exécutable avec Docker et une seule commande, quel que soit l’OS

1 commentaires

 
GN⁺ 2025-02-15
Avis Hacker News
  • Les pipelines de segmentation complexes étaient nécessaires il y a quelques années, mais ils génèrent désormais beaucoup d’erreurs et privent les modèles d’un contexte important. Pour passer au manuscrit, le contexte est indispensable

    • Pour déchiffrer des manuscrits historiques, les spécialistes diront qu’il faut le document entier
    • Il faut aller jusqu’à la reconnaissance de texte, pas seulement la reconnaissance de caractères
    • Évaluer les modèles avec le CER n’est pas une bonne approche
    • La reconnaissance de texte est en train de répéter les erreurs de la traduction automatique d’il y a 15 ans
  • OCR4all est un logiciel destiné à la récupération et à la reconnaissance de texte numérique pour les imprimés du début de l’époque moderne

    • Les types d’impression complexes et les mises en page irrégulières mettent à l’épreuve les capacités des logiciels classiques de reconnaissance de texte
    • Cela semble être construit sur Calamari-OCR
  • OCR4all répond de manière claire et intuitive aux besoins des utilisateurs non techniques

    • Il y a des instructions disant d’ouvrir un terminal sous Linux et de saisir des commandes
    • On peut se demander en quoi cela aide les utilisateurs non techniques
  • Le Vision Framework d’Apple fournit une bibliothèque de reconnaissance de texte plus rapide et plus précise que Tesseract

    • Il peut traiter presque tous les formats d’image
    • Un outil CLI simple et un wrapper Python ont été créés
  • Combiner Tesseract et des LLM pour corriger les erreurs et améliorer la mise en forme constitue actuellement le meilleur compromis en matière de vitesse, d’efficacité et de précision

    • Il est possible de modifier le texte de prompt en anglais pour prioriser certains aspects propres au document d’entrée
  • Une API OCR assistée par IA a été développée

    • Elle combine Tesseract et Poppler-utils pour extraire intelligemment les segments de document
    • Elle peut être facilement étendue à plusieurs modèles de Vision LLM
    • Elle expose une API complète d’agent IA sous forme de conteneur Dockerisé
  • Ce workflow sert à numériser des documents imprimés historiques

    • Il s’agit notamment de préserver d’anciennes annonces en caractères blackletter
  • OCR4all combine diverses solutions open source pour fournir un workflow de reconnaissance automatique de texte

    • Cela semble reposer sur OCR-D, lui-même fondé sur Tesseract, Kraken, DUP-ocropy et Calamari-OCR
    • Cela ressemble à une alternative open source à Transkribus
    • eScriptorium est aussi une autre alternative
  • On se demande s’il s’agit d’un nouveau moteur OCR SOTA ou d’un outil qui utilise d’autres moteurs déjà connus

    • Il serait préférable que la landing page soit plus claire
  • On pensait que l’OCR était en grande partie résolu avec Tesseract, mais quelqu’un cherche une bibliothèque ou une implémentation pour la compression MRC des PDF résultants

    • Les produits commerciaux coûtent cher, et séparer, compresser puis recombiner les couches d’image reste un problème difficile