8 points par GN⁺ 2025-04-04 | 1 commentaires | Partager sur WhatsApp
  • Comparaison dans le benchmark Omni OCR, qui analyse les performances OCR, incluant des modèles récemment lancés comme Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324 et mistral-ocr
  • Les modèles Qwen 2.5 VL 72B/32B ont enregistré la précision la plus élevée
    • Tous deux affichent environ 75 % de précision, avec des performances au niveau de GPT-4o
    • Qwen 72B a enregistré une précision supérieure de 0,4 % à celle du 32B, soit en pratique des performances similaires dans la marge d’erreur
  • Les deux modèles Qwen dépassent les performances de mistral-ocr (72,2 %)
    • Malgré un entraînement spécialisé pour l’OCR, mistral-ocr reste derrière Qwen
  • Le modèle Gemma-3 (27B) affiche une faible précision de 42,9 %
    • Un résultat quelque peu surprenant malgré son architecture basée sur Gemini 2.0

Benchmark Omni OCR

  • Outil de benchmarking comparant les capacités d’OCR et d’extraction de données, évaluant la précision d’extraction de texte et de JSON de grands modèles multimodaux comme GPT-4o
  • L’objectif de ce benchmark est de publier une évaluation complète de la précision OCR couvrant à la fois les fournisseurs OCR traditionnels et les modèles de langage multimodaux
  • Le jeu de données d’évaluation et la méthodologie sont entièrement disponibles en open source, et il est encouragé d’étendre ce benchmark à d’autres fournisseurs

1 commentaires

 
GN⁺ 2025-04-04
Avis Hacker News
  • Le 32b produit une sortie plus conviviale pour les humains, offre un meilleur raisonnement mathématique, et sa petite capacité d’ajustement fin semble utile pour faciliter une compréhension détaillée
  • Qwen2.5-VL-72b est sorti il y a deux mois, et il y avait des commentaires enthousiastes sur la reconnaissance de l’écriture manuscrite
    • C’était une sortie intéressante qui a aidé à surmonter le scepticisme et la frustration vis-à-vis de l’IA
    • Les notes de publication sont bien organisées, et le billet de blog est excellent
  • La sortie HTML de Qwen était intéressante
    • Elle fournit des boîtes englobantes au format HTML, ce qui permet de construire rapidement un retour visuel ou d’exploiter facilement des données structurées
    • L’OCR traditionnel conserve un gros avantage sur les LLM pour fournir les coordonnées des boîtes englobantes
  • Tant qu’on n’atteint pas plus de 95 % de précision, une double vérification et une correction humaines sont nécessaires, et sans boîtes englobantes cela semble irréaliste
  • Je suis en train de télécharger via LM Studio la version MLX de "Qwen2.5-VL-32b-Instruct -8bit", avec l’intention de l’utiliser pour un projet OCR annexe
  • Je me demande si, en plus de la précision, ils ont aussi mesuré le coût et la latence, et s’ils pourraient partager ces résultats
  • Je continue d’être impressionné par les capacités OCR de Gemini, et Qwen progresse rapidement
  • J’effectue des tâches en comparant plusieurs modèles, et le dernier modèle de Qwen est bien plus stable qu’avant et plus facile à affiner
  • Les performances OCR d’OpenAI ne se sont pas vraiment améliorées depuis longtemps, ce qui est étrange et agaçant
  • Qwen 2.5 VL 72b dépasse Gemini en vision générale, et peut être exécuté en local
  • J’expérimente avec l’API OCR sur macOS, et j’aimerais comparer cela avec ces LLM
  • Tesseract peut atteindre 99 % de précision sur tout sauf l’écriture manuscrite
  • Je me demande s’il y a réellement un avantage à utiliser des LLM
  • Je suis très impressionné par les résultats des tests de Qwen, et je pense que les gens le sous-estiment
  • Je me demande comment les gens configurent l’interface LLM pour traiter plusieurs fichiers dans un seul prompt
  • Excellent travail de Tyler et de l’équipe