Qwen-2.5-32B est désormais le meilleur modèle OCR open source

Comparaison dans le benchmark Omni OCR, qui analyse les performances OCR, incluant des modèles récemment lancés comme Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324 et mistral-ocr
Les modèles Qwen 2.5 VL 72B/32B ont enregistré la précision la plus élevée
- Tous deux affichent environ 75 % de précision, avec des performances au niveau de GPT-4o
- Qwen 72B a enregistré une précision supérieure de 0,4 % à celle du 32B, soit en pratique des performances similaires dans la marge d’erreur
Les deux modèles Qwen dépassent les performances de mistral-ocr (72,2 %)
- Malgré un entraînement spécialisé pour l’OCR, mistral-ocr reste derrière Qwen
Le modèle Gemma-3 (27B) affiche une faible précision de 42,9 %
- Un résultat quelque peu surprenant malgré son architecture basée sur Gemini 2.0

Benchmark Omni OCR

Outil de benchmarking comparant les capacités d’OCR et d’extraction de données, évaluant la précision d’extraction de texte et de JSON de grands modèles multimodaux comme GPT-4o
L’objectif de ce benchmark est de publier une évaluation complète de la précision OCR couvrant à la fois les fournisseurs OCR traditionnels et les modèles de langage multimodaux
Le jeu de données d’évaluation et la méthodologie sont entièrement disponibles en open source, et il est encouragé d’étendre ce benchmark à d’autres fournisseurs

1 commentaires

GN⁺ 2025-04-04

Avis Hacker News

Le 32b produit une sortie plus conviviale pour les humains, offre un meilleur raisonnement mathématique, et sa petite capacité d’ajustement fin semble utile pour faciliter une compréhension détaillée
Qwen2.5-VL-72b est sorti il y a deux mois, et il y avait des commentaires enthousiastes sur la reconnaissance de l’écriture manuscrite
- C’était une sortie intéressante qui a aidé à surmonter le scepticisme et la frustration vis-à-vis de l’IA
- Les notes de publication sont bien organisées, et le billet de blog est excellent
La sortie HTML de Qwen était intéressante
- Elle fournit des boîtes englobantes au format HTML, ce qui permet de construire rapidement un retour visuel ou d’exploiter facilement des données structurées
- L’OCR traditionnel conserve un gros avantage sur les LLM pour fournir les coordonnées des boîtes englobantes
Tant qu’on n’atteint pas plus de 95 % de précision, une double vérification et une correction humaines sont nécessaires, et sans boîtes englobantes cela semble irréaliste
Je suis en train de télécharger via LM Studio la version MLX de "Qwen2.5-VL-32b-Instruct -8bit", avec l’intention de l’utiliser pour un projet OCR annexe
Je me demande si, en plus de la précision, ils ont aussi mesuré le coût et la latence, et s’ils pourraient partager ces résultats
Je continue d’être impressionné par les capacités OCR de Gemini, et Qwen progresse rapidement
J’effectue des tâches en comparant plusieurs modèles, et le dernier modèle de Qwen est bien plus stable qu’avant et plus facile à affiner
Les performances OCR d’OpenAI ne se sont pas vraiment améliorées depuis longtemps, ce qui est étrange et agaçant
Qwen 2.5 VL 72b dépasse Gemini en vision générale, et peut être exécuté en local
J’expérimente avec l’API OCR sur macOS, et j’aimerais comparer cela avec ces LLM
Tesseract peut atteindre 99 % de précision sur tout sauf l’écriture manuscrite
Je me demande s’il y a réellement un avantage à utiliser des LLM
Je suis très impressionné par les résultats des tests de Qwen, et je pense que les gens le sous-estiment
Je me demande comment les gens configurent l’interface LLM pour traiter plusieurs fichiers dans un seul prompt
Excellent travail de Tyler et de l’équipe

Qwen-2.5-32B est désormais le meilleur modèle OCR open source

Benchmark Omni OCR

À lire aussi

1 commentaires

Avis Hacker News