-
Présentation du projet
- Ce projet est un outil qui utilise
llama-ocretTogether AIOCRpour convertir des images en Markdown structuré. - Les utilisateurs peuvent téléverser des images afin d’en extraire le texte et de le convertir au format Markdown.
- Ce projet est un outil qui utilise
-
Fonctionnalités principales
- Prise en charge du téléversement d’images
- Extraction du texte à partir des images et conversion en Markdown
- Mise à disposition d’images d’exemple permettant aux utilisateurs de tester les fonctionnalités
-
Exemple de code
- Un exemple de code est fourni pour extraire du texte d’une image à l’aide de la bibliothèque
llama-ocr. - La fonction
ocrgénère du Markdown en recevant le chemin du fichier image et la clé API.
- Un exemple de code est fourni pour extraire du texte d’une image à l’aide de la bibliothèque
-
Importance du projet
- Ce projet améliore l’efficacité du travail documentaire en permettant d’extraire facilement du texte depuis des images et de le convertir en Markdown.
- Par rapport aux outils OCR existants, il offre une utilisation plus simple ainsi qu’une fonctionnalité de conversion en Markdown.
1 commentaires
Avis Hacker News
L’auteur de llama-ocr a développé un outil qui convertit des images en Markdown structuré via une API simple. Il prévoit d’ajouter plus tard la prise en charge du parsing de PDF et une sortie en JSON
Il a utilisé llama3.2-vision pour traiter des bordereaux d’enchères caritatives, et c’était assez précis même avec une écriture peu lisible
Les modèles OCR classiques ne conviennent pas pour numériser le texte de photos de famille, et Gemini Flash a donné les meilleurs résultats
Certains doutent que cela soit vraiment adapté à un post "Show HN", et trouvent le lien avec le nom Llama assez faible
Une phrase générée par un algorithme génétique a bien été dessinée sous forme de vrai cercle, mais n’a pas été reconnue comme du texte
Quelqu’un a téléversé un PDF multipage, avant d’apprendre que ce n’était pas pris en charge
Quelqu’un a téléversé une capture d’écran de HN, mais le code Markdown n’a pas été produit
L’OCR en japonais fonctionne bien via l’API ChatGPT
Sur un reçu Walmart, le chiffre 9 a été mal reconnu comme un 0