- Modèle OCR de nouvelle génération qui améliore à la fois la précision et l’efficacité du traitement documentaire, avec de hautes performances de reconnaissance sur divers types de documents
- Il affiche une amélioration globale des performances de 74 % par rapport à la version précédente, avec d’excellents résultats sur l’écriture manuscrite, les formulaires, les tableaux complexes et les documents numérisés
- La reconstruction de tableaux basée sur HTML et la prise en charge de la sortie Markdown permettent de préserver aussi les informations structurelles des documents
- 2 dollars pour 1 000 pages, avec 50 % de réduction pour le traitement en masse, assurant une bonne efficacité coût
- Technologie OCR exploitable aussi bien pour les pipelines documentaires d’entreprise à grande échelle que pour les workflows documentaires interactifs, et qui s’impose comme une infrastructure clé pour l’exploitation des données fondée sur l’IA générative
Principales performances et caractéristiques
- Mistral OCR 3 réalise avec une grande précision l’extraction de texte et d’images intégrées dans divers documents
- Il prend en charge la sortie au format Markdown et la reconstruction de tableaux en HTML, ce qui permet de reconnaître non seulement le contenu, mais aussi la structure des documents
- La taille du modèle est réduite, ce qui lui permet d’être proposé à un coût inférieur à celui des solutions concurrentes : 2 dollars pour 1 000 pages, ou 1 dollar via la Batch API
- Il est possible d’intégrer le modèle mistral-ocr-2512 via API, ou de convertir des PDF et des images en texte ou en JSON structuré via l’interface Document AI Playground
Amélioration des performances et benchmarks
- Dans les benchmarks internes, il a enregistré un taux de victoire de 74 % par rapport à Mistral OCR 2
- Les tests ont été réalisés à partir de cas d’usage métier réels de clients, et la précision a été évaluée avec la fuzzy-match metric
- Il atteint une précision supérieure à celle des solutions de traitement documentaire pour l’entreprise et des OCR fondés sur l’IA
Principaux domaines d’amélioration
- Reconnaissance de l’écriture manuscrite : interprétation précise de l’écriture cursive, des annotations mixtes et du texte manuscrit sur des formulaires imprimés
- Traitement des formulaires : meilleure reconnaissance des cases, libellés, saisies manuscrites et mises en page complexes
- Documents numérisés et complexes : forte résistance aux artefacts de compression, aux déformations, à la basse résolution et au bruit de fond
- Structures de tableaux complexes : reproduction complète des tableaux comprenant en-têtes, cellules fusionnées et hiérarchies multi-lignes et multi-colonnes avec des balises HTML (
colspan/rowspan)
- Amélioration globale des performances par rapport à Mistral OCR 2 sur toutes les langues et tous les formats documentaires
Cas d’usage et domaines d’application
- Adapté aussi bien aux pipelines documentaires d’entreprise à grande échelle qu’aux workflows documentaires interactifs
- Prend en charge notamment l’extraction de texte et d’images suivie de la conversion en Markdown, le parsing automatique de formulaires et de factures, la création de pipelines de compréhension documentaire, ainsi que la numérisation de documents manuscrits et historiques
- Les premiers clients l’utilisent déjà pour convertir des factures en champs structurés, numériser des archives d’entreprise, extraire le texte de rapports techniques et scientifiques, et améliorer la recherche en entreprise
- Tim Law, d’IDC, a déclaré que « l’OCR est une technologie de base pour l’IA générative et l’IA agentique, et que la capacité d’extraction de texte à haute précision et à faible coût détermine la compétitivité dans l’exploitation des données »
Approche et compatibilité
- Disponible immédiatement via API ou via l’interface Document AI Playground
- Entièrement compatible avec Mistral OCR 2, ce qui permet une mise à niveau facile dans les systèmes existants
- La documentation détaillée est disponible sur mistral.ai/docs
Aucun commentaire pour le moment.