<p>- PDF « sandwich » : un fichier PDF ne contenant que des images, traité par OCR pour insérer du texte de façon invisible derrière l’image de chaque page<br />
→ permet de rechercher du texte et de le sélectionner pour le copier<br />
- Utilisé en ligne de commande pour faire l’OCR de livres ou de magazines numérisés<br />
→ prend aussi en charge le texte sur plusieurs colonnes <br />
- `tesseract` + `unpaper` + `convert` + `ghostscript` <br />
→ prend en charge toutes les langues supportées par `tesseract` (y compris le coréen)<br />
- Linux/Mac. Prend en charge le traitement parallèle sur les systèmes multiprocesseurs </p>
Aucun commentaire pour le moment.