- Comparaison dans le benchmark Omni OCR, qui analyse les performances OCR, incluant des modèles récemment lancés comme Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324 et mistral-ocr
- Les modèles Qwen 2.5 VL 72B/32B ont enregistré la précision la plus élevée
- Tous deux affichent environ 75 % de précision, avec des performances au niveau de GPT-4o
- Qwen 72B a enregistré une précision supérieure de 0,4 % à celle du 32B, soit en pratique des performances similaires dans la marge d’erreur
- Les deux modèles Qwen dépassent les performances de mistral-ocr (72,2 %)
- Malgré un entraînement spécialisé pour l’OCR, mistral-ocr reste derrière Qwen
- Le modèle Gemma-3 (27B) affiche une faible précision de 42,9 %
- Un résultat quelque peu surprenant malgré son architecture basée sur Gemini 2.0
Benchmark Omni OCR
- Outil de benchmarking comparant les capacités d’OCR et d’extraction de données, évaluant la précision d’extraction de texte et de JSON de grands modèles multimodaux comme GPT-4o
- L’objectif de ce benchmark est de publier une évaluation complète de la précision OCR couvrant à la fois les fournisseurs OCR traditionnels et les modèles de langage multimodaux
- Le jeu de données d’évaluation et la méthodologie sont entièrement disponibles en open source, et il est encouragé d’étendre ce benchmark à d’autres fournisseurs
1 commentaires
Avis Hacker News