3 points par GN⁺ 2024-11-17 | 1 commentaires | Partager sur WhatsApp
  • Présentation du projet

    • Ce projet est un outil qui utilise llama-ocr et Together AIOCR pour convertir des images en Markdown structuré.
    • Les utilisateurs peuvent téléverser des images afin d’en extraire le texte et de le convertir au format Markdown.
  • Fonctionnalités principales

    • Prise en charge du téléversement d’images
    • Extraction du texte à partir des images et conversion en Markdown
    • Mise à disposition d’images d’exemple permettant aux utilisateurs de tester les fonctionnalités
  • Exemple de code

    • Un exemple de code est fourni pour extraire du texte d’une image à l’aide de la bibliothèque llama-ocr.
    • La fonction ocr génère du Markdown en recevant le chemin du fichier image et la clé API.
  • Importance du projet

    • Ce projet améliore l’efficacité du travail documentaire en permettant d’extraire facilement du texte depuis des images et de le convertir en Markdown.
    • Par rapport aux outils OCR existants, il offre une utilisation plus simple ainsi qu’une fonctionnalité de conversion en Markdown.

1 commentaires

 
GN⁺ 2024-11-17
Avis Hacker News
  • L’auteur de llama-ocr a développé un outil qui convertit des images en Markdown structuré via une API simple. Il prévoit d’ajouter plus tard la prise en charge du parsing de PDF et une sortie en JSON

    • Dans l’exemple du webtoon, il a constaté un problème où les dialogues en majuscules étaient rendus différemment selon les panneaux
    • Il l’a utilisé pour numériser d’anciennes diapositives, et la teinte jaune des diapositives était en réalité due à un problème de balance des blancs
    • Comme exemple montrant le biais du modèle, celui-ci a pris les diapositives pour des antiquités et a généré un titre erroné
    • Les limites de taille de fichier ou de résolution de l’API ne sont pas documentées
  • Il a utilisé llama3.2-vision pour traiter des bordereaux d’enchères caritatives, et c’était assez précis même avec une écriture peu lisible

    • Le fait que la sortie ne soit pas générée de manière cohérente en CSV était gênant
    • Le problème portait sur environ 100 pages, donc un nettoyage manuel restait possible
  • Les modèles OCR classiques ne conviennent pas pour numériser le texte de photos de famille, et Gemini Flash a donné les meilleurs résultats

    • Il y a encore beaucoup d’erreurs, au point que le travail manuel est plus rapide
  • Certains doutent que cela soit vraiment adapté à un post "Show HN", et trouvent le lien avec le nom Llama assez faible

  • Une phrase générée par un algorithme génétique a bien été dessinée sous forme de vrai cercle, mais n’a pas été reconnue comme du texte

  • Quelqu’un a téléversé un PDF multipage, avant d’apprendre que ce n’était pas pris en charge

  • Quelqu’un a téléversé une capture d’écran de HN, mais le code Markdown n’a pas été produit

  • L’OCR en japonais fonctionne bien via l’API ChatGPT

  • Sur un reçu Walmart, le chiffre 9 a été mal reconnu comme un 0