- Mistral OCR est la meilleure API de compréhension de documents au monde, offrant une capacité à comprendre et analyser les documents avec plus de précision que les modèles existants
- Extrait texte, médias, formules et tableaux de PDF et d’images pour les convertir en sorties structurées
- L’API est actuellement proposée à 1 $ pour 1 000 pages (coût par page divisé par deux en traitement par lot)
Principales caractéristiques de Mistral OCR
- Compréhension avancée des documents complexes : interprétation précise des tableaux, images, formules et même de la mise en forme LaTeX
- Prise en charge multilingue et multimodale : compatibilité avec diverses langues, polices et écritures
- Performances de niveau leader du secteur : une précision supérieure à celle des autres modèles OCR
- Vitesse maximale : jusqu’à 2 000 pages par minute sur un seul nœud
- Utilisation possible des documents comme prompt : prise en charge de sorties structurées comme JSON
- Option on-premise (self-host) : adaptée aux entreprises souhaitant traiter des documents confidentiels
Compréhension des documents complexes
- Mistral OCR peut analyser en profondeur des documents contenant articles scientifiques, graphiques, formules, tableaux et images
- Un notebook d’exemple permet de voir comment l’OCR extrait le texte et les images d’un PDF (exemple)
Comparaison des performances (benchmark)
Mistral OCR obtient le meilleur score global face aux autres grands modèles OCR
- Performance globale (Overall) : 94.89 (score supérieur aux autres modèles)
- Performance d’analyse des formules (Math) : 94.29 (plus de 7 points au-dessus de GPT-4o)
- Performance de reconnaissance multilingue : 89.55
- Performance sur documents scannés (Scanned) : 98.96
- Performance de reconnaissance des tableaux (Table) : 96.12 (la meilleure face aux autres modèles)
Prise en charge multilingue
Mistral OCR peut traiter un large éventail de langues et d’écritures dans le monde. Par rapport aux principaux modèles, il obtient les meilleures performances OCR dans toutes les langues
- Russe (ru) : 99.09 (Azure OCR 97.35, Google Doc AI 95.56)
- Français (fr) : 99.20 (Azure 97.50, Google 96.36)
- Chinois (zh) : 97.11 (Azure 91.40, Google 90.89)
- Allemand (de) : 99.51 (Azure 98.39, Google 97.09)
Vitesse de traitement élevée
- Mistral OCR est plus léger que les modèles OCR existants et peut traiter jusqu’à 2 000 pages/minute sur un seul nœud
- Il prend en charge un apprentissage et une amélioration continus dans les environnements nécessitant le traitement de gros volumes de documents
Utiliser les documents comme prompt (Doc-as-prompt)
- Il est possible d’extraire des informations spécifiques d’un document et de générer des sorties structurées comme JSON
- Les données extraites peuvent être reliées à des processus IA en aval pour automatiser les flux
- Exemple : extraction de clauses spécifiques dans des documents juridiques, puis génération de réponses par un chatbot IA
Option on-premise (Self-host)
- L’auto-hébergement est possible lorsqu’un traitement de documents confidentiels en entreprise est nécessaire
- Adapté aux institutions et entreprises pour lesquelles la confidentialité et la sécurité des données sont essentielles
Principaux cas d’usage
- Numérisation de la recherche scientifique : conversion d’articles et de revues dans un format exploitable par l’IA afin d’accélérer la collaboration en recherche
- Préservation du patrimoine historique et culturel : musées et organisations à but non lucratif peuvent numériser des documents historiques pour les conserver et les partager
- Amélioration du service client : indexation de manuels et de documents pour accélérer les réponses aux clients
- Usage de l’IA pour le design, l’éducation et les documents juridiques : indexation de plans d’ingénierie, supports de cours et documents réglementaires pour permettre une recherche d’information basée sur l’IA
Essayer Mistral OCR
- Mistral OCR peut être essayé gratuitement dans Le Chat (Le Chat)
- L’API est disponible sur la Plateforme (Utiliser l’API)
- Un déploiement on-premise et des solutions sur mesure pour les entreprises sont également proposés (Contact)
2 commentaires
Il n’y a pas d’informations sur les performances en coréen, mais après quelques essais, ça n’a pas l’air mauvais.
Avis Hacker News
Certains estiment que c’est « pas mal ». Cependant, des hallucinations se produisent encore
Un benchmark a été exécuté partiellement pour comparer les performances de Mistral et Marker
Certains espèrent qu’avec les progrès de l’OCR, il deviendra plus facile de lire des articles scientifiques et des manuels
La technologie OCR approche d’un état où elle est presque résolue
Certains estiment que, pour convertir des manuels médicaux de PDF en MD, les résultats de MinerU/PDF-Extract-Kit sont meilleurs
Certains disent que le jour est venu où la technologie permet enfin d’éditer les PDF
Certains disent que c’est très rapide et plus précis que Google, Claude et d’autres
Utiliser un VLM généraliste au lieu d’un modèle spécifique a l’inconvénient d’être plus difficile à ajuster à des cas précis
Certains cherchent une explication simple à la raison pour laquelle le VLM OCR produit des hallucinations