Mistral OCR dévoilé : la meilleure API de compréhension de documents

(mistral.ai)

13 points par GN⁺ 2025-03-07 | 2 commentaires | Partager sur WhatsApp

Mistral OCR est la meilleure API de compréhension de documents au monde, offrant une capacité à comprendre et analyser les documents avec plus de précision que les modèles existants
Extrait texte, médias, formules et tableaux de PDF et d’images pour les convertir en sorties structurées
L’API est actuellement proposée à 1 $ pour 1 000 pages (coût par page divisé par deux en traitement par lot)

Principales caractéristiques de Mistral OCR

Compréhension avancée des documents complexes : interprétation précise des tableaux, images, formules et même de la mise en forme LaTeX
Prise en charge multilingue et multimodale : compatibilité avec diverses langues, polices et écritures
Performances de niveau leader du secteur : une précision supérieure à celle des autres modèles OCR
Vitesse maximale : jusqu’à 2 000 pages par minute sur un seul nœud
Utilisation possible des documents comme prompt : prise en charge de sorties structurées comme JSON
Option on-premise (self-host) : adaptée aux entreprises souhaitant traiter des documents confidentiels

Compréhension des documents complexes

Mistral OCR peut analyser en profondeur des documents contenant articles scientifiques, graphiques, formules, tableaux et images
Un notebook d’exemple permet de voir comment l’OCR extrait le texte et les images d’un PDF (exemple)

Comparaison des performances (benchmark)

Mistral OCR obtient le meilleur score global face aux autres grands modèles OCR

Performance globale (Overall) : 94.89 (score supérieur aux autres modèles)
Performance d’analyse des formules (Math) : 94.29 (plus de 7 points au-dessus de GPT-4o)
Performance de reconnaissance multilingue : 89.55
Performance sur documents scannés (Scanned) : 98.96
Performance de reconnaissance des tableaux (Table) : 96.12 (la meilleure face aux autres modèles)

Prise en charge multilingue

Mistral OCR peut traiter un large éventail de langues et d’écritures dans le monde. Par rapport aux principaux modèles, il obtient les meilleures performances OCR dans toutes les langues

Russe (ru) : 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
Français (fr) : 99.20 (Azure 97.50, Google 96.36)
Chinois (zh) : 97.11 (Azure 91.40, Google 90.89)
Allemand (de) : 99.51 (Azure 98.39, Google 97.09)

Vitesse de traitement élevée

Mistral OCR est plus léger que les modèles OCR existants et peut traiter jusqu’à 2 000 pages/minute sur un seul nœud
Il prend en charge un apprentissage et une amélioration continus dans les environnements nécessitant le traitement de gros volumes de documents

Utiliser les documents comme prompt (Doc-as-prompt)

Il est possible d’extraire des informations spécifiques d’un document et de générer des sorties structurées comme JSON
Les données extraites peuvent être reliées à des processus IA en aval pour automatiser les flux
Exemple : extraction de clauses spécifiques dans des documents juridiques, puis génération de réponses par un chatbot IA

Option on-premise (Self-host)

L’auto-hébergement est possible lorsqu’un traitement de documents confidentiels en entreprise est nécessaire
Adapté aux institutions et entreprises pour lesquelles la confidentialité et la sécurité des données sont essentielles

Principaux cas d’usage

Numérisation de la recherche scientifique : conversion d’articles et de revues dans un format exploitable par l’IA afin d’accélérer la collaboration en recherche
Préservation du patrimoine historique et culturel : musées et organisations à but non lucratif peuvent numériser des documents historiques pour les conserver et les partager
Amélioration du service client : indexation de manuels et de documents pour accélérer les réponses aux clients
Usage de l’IA pour le design, l’éducation et les documents juridiques : indexation de plans d’ingénierie, supports de cours et documents réglementaires pour permettre une recherche d’information basée sur l’IA

Essayer Mistral OCR

Mistral OCR peut être essayé gratuitement dans Le Chat (Le Chat)
L’API est disponible sur la Plateforme (Utiliser l’API)
Un déploiement on-premise et des solutions sur mesure pour les entreprises sont également proposés (Contact)

2 commentaires

taeha 2025-03-13

Il n’y a pas d’informations sur les performances en coréen, mais après quelques essais, ça n’a pas l’air mauvais.

GN⁺ 2025-03-07

Avis Hacker News

Certains estiment que c’est « pas mal ». Cependant, des hallucinations se produisent encore
- Dans l’image fournie en exemple, le texte du bloc central a été restitué correctement
- Mais dans le bloc suivant, une partie du texte du bloc précédent a été répétée, une partie du bloc suivant a été incluse à tort, et des mots inexistants ont été générés
- Le texte correct est « Louis, commandeur de Malte, capitaine aux gardes, 2 juin 1679. »
Un benchmark a été exécuté partiellement pour comparer les performances de Mistral et Marker
- Sur 375 échantillons, l’évaluation par un LLM a donné 4,32 pour Mistral et 4,41 pour Marker
- Marker peut faire de l’inférence à 20 à 120 pages par seconde sur H100
- Les échantillons et le code du benchmark sont disponibles respectivement sur Hugging Face et GitHub
- Mistral OCR est un modèle impressionnant, mais le problème de l’OCR reste difficile
Certains espèrent qu’avec les progrès de l’OCR, il deviendra plus facile de lire des articles scientifiques et des manuels
- Il devient possible de relier les références aux figures aux figures elles-mêmes, sans casser le flux de lecture
- Une conversion propre en HTML permettrait de cliquer sur des définitions ou d’ajouter des questions pour vérifier la compréhension
- Il pourrait même devenir possible d’intégrer automatiquement Orbit SRS d’Andy Matuschak aux PDF
La technologie OCR approche d’un état où elle est presque résolue
- Mais dans le monde de l’entreprise, il reste encore un fossé important entre une sortie OCR brute et un véritable traitement documentaire
- Les LLM et les VLM ne sont pas magiques, et attendre une automatisation à 100 % est irréaliste
- Il faut encore construire des jeux de données, ajuster les pipelines, détecter les incertitudes et corriger via une intervention humaine
Certains estiment que, pour convertir des manuels médicaux de PDF en MD, les résultats de MinerU/PDF-Extract-Kit sont meilleurs
- Le lien Colab dans l’article ne fonctionne pas, mais un lien fonctionnel a été trouvé dans la documentation
Certains disent que le jour est venu où la technologie permet enfin d’éditer les PDF
- Mais les problèmes d’OCR sur des archives PDF contenant des données personnelles ne sont toujours pas résolus
Certains disent que c’est très rapide et plus précis que Google, Claude et d’autres
- Le prix est de 1 $ pour 1 000 pages, avec une tarification par lot à raison de 2 000 pages
- Certains trouvent cela excellent pour convertir des PDF en Markdown
Utiliser un VLM généraliste au lieu d’un modèle spécifique a l’inconvénient d’être plus difficile à ajuster à des cas précis
- Par exemple, certains utilisent Gemini pour ajouter un texte alternatif très spécifique au Markdown extrait
- Cela coûte 2 à 3 fois plus que Gemini Flash, mais le gain de performance est jugé important
Certains cherchent une explication simple à la raison pour laquelle le VLM OCR produit des hallucinations