PaddleOCR-VL - le modèle vision-langage multilingue ultra-compact de 0,9B pour l’OCR dévoilé par Baidu

(huggingface.co)

43 points par xguru 2025-10-21 | 6 commentaires | Partager sur WhatsApp

Modèle vision-langage (VLM) ultra-compact optimisé pour le parsing de documents, il prend en charge 109 langues, dont le coréen, et reconnaît avec précision des éléments complexes comme les formules, tableaux, graphiques et l’écriture manuscrite
Le modèle central PaddleOCR-VL-0.9B combine un encodeur visuel à résolution dynamique basé sur NaViT et le modèle de langage ERNIE-4.5-0.3B pour atteindre à la fois une reconnaissance de haute précision et une vitesse d’inférence rapide
Grâce à une architecture VLM petite mais puissante, il conserve une bonne efficacité de calcul tout en offrant des performances de reconnaissance au niveau des grands modèles existants
Il établit l’état de l’art (SOTA) sur OmniDocBench et d’autres benchmarks, en dépassant les modèles traditionnels fondés sur des pipelines
Il prend en charge non seulement le coréen, le chinois, l’anglais et le japonais, mais aussi divers systèmes d’écriture comme le russe, l’arabe, l’hindi et le thaï, ce qui permet son usage pour l’automatisation du traitement documentaire à l’échelle mondiale
Sa structure légère réduit l’utilisation des ressources GPU et permet un déploiement et une intégration faciles via Docker, CLI et l’API Python
Il surpasse sur certains points des modèles multimodaux de classe 72B et constitue une solution multilingue de traitement documentaire immédiatement exploitable en conditions réelles

6 commentaires

helio 2025-10-21

Il y a probablement aussi des endroits qui utilisent PaddleOCR en production, non ??

tsboard 2025-10-21

Waouh, incroyable 😳😳😳 Avec ça, on pourra reconnaître directement même des documents avec des tableaux complexes.

xguru 2025-10-21

D’après ce qu’on entend, il serait nettement supérieur à certains moteurs OCR commerciaux.

yeorinhieut 2025-10-21

On dirait que DeepSeek OCR est aussi sorti cette fois-ci, je suis curieux de voir la comparaison des performances.

yangeok 2025-10-21

Le mieux, c’est quand le multilingue fonctionne en même temps,,

forgotdonkey456 2025-10-21

Un commentaire qui suppose qu’à partir du moment où une entreprise privée chinoise est capable de sortir un modèle de ce niveau, la NSA dispose probablement, pour la collecte de renseignements, d’un modèle d’OCR encore plus performant — voire complètement dingue.

PaddleOCR-VL - le modèle vision-langage multilingue ultra-compact de 0,9B pour l’OCR dévoilé par Baidu

À lire aussi

6 commentaires