- Modèle vision-langage (VLM) ultra-compact optimisé pour le parsing de documents, il prend en charge 109 langues, dont le coréen, et reconnaît avec précision des éléments complexes comme les formules, tableaux, graphiques et l’écriture manuscrite
- Le modèle central PaddleOCR-VL-0.9B combine un encodeur visuel à résolution dynamique basé sur NaViT et le modèle de langage ERNIE-4.5-0.3B pour atteindre à la fois une reconnaissance de haute précision et une vitesse d’inférence rapide
- Grâce à une architecture VLM petite mais puissante, il conserve une bonne efficacité de calcul tout en offrant des performances de reconnaissance au niveau des grands modèles existants
- Il établit l’état de l’art (SOTA) sur OmniDocBench et d’autres benchmarks, en dépassant les modèles traditionnels fondés sur des pipelines
- Il prend en charge non seulement le coréen, le chinois, l’anglais et le japonais, mais aussi divers systèmes d’écriture comme le russe, l’arabe, l’hindi et le thaï, ce qui permet son usage pour l’automatisation du traitement documentaire à l’échelle mondiale
- Sa structure légère réduit l’utilisation des ressources GPU et permet un déploiement et une intégration faciles via Docker, CLI et l’API Python
- Il surpasse sur certains points des modèles multimodaux de classe 72B et constitue une solution multilingue de traitement documentaire immédiatement exploitable en conditions réelles
6 commentaires
Il y a probablement aussi des endroits qui utilisent PaddleOCR en production, non ??
Waouh, incroyable 😳😳😳 Avec ça, on pourra reconnaître directement même des documents avec des tableaux complexes.
D’après ce qu’on entend, il serait nettement supérieur à certains moteurs OCR commerciaux.
On dirait que DeepSeek OCR est aussi sorti cette fois-ci, je suis curieux de voir la comparaison des performances.
Le mieux, c’est quand le multilingue fonctionne en même temps,,
Un commentaire qui suppose qu’à partir du moment où une entreprise privée chinoise est capable de sortir un modèle de ce niveau, la NSA dispose probablement, pour la collecte de renseignements, d’un modèle d’OCR encore plus performant — voire complètement dingue.