Sortie de Mistral OCR 3
(mistral.ai)- Modèle OCR de nouvelle génération qui améliore à la fois la précision et l’efficacité du traitement documentaire, avec de hautes performances de reconnaissance sur divers types de documents
- Il affiche une amélioration globale des performances de 74 % par rapport à la version précédente, avec d’excellents résultats sur l’écriture manuscrite, les formulaires, les tableaux complexes et les documents numérisés
- La reconstruction de tableaux basée sur HTML et la prise en charge de la sortie Markdown permettent de préserver aussi les informations structurelles des documents
- 2 dollars pour 1 000 pages, avec 50 % de réduction pour le traitement en masse, assurant une bonne efficacité coût
- Technologie OCR exploitable aussi bien pour les pipelines documentaires d’entreprise à grande échelle que pour les workflows documentaires interactifs, et qui s’impose comme une infrastructure clé pour l’exploitation des données fondée sur l’IA générative
Principales performances et caractéristiques
- Mistral OCR 3 réalise avec une grande précision l’extraction de texte et d’images intégrées dans divers documents
- Il prend en charge la sortie au format Markdown et la reconstruction de tableaux en HTML, ce qui permet de reconnaître non seulement le contenu, mais aussi la structure des documents
- La taille du modèle est réduite, ce qui lui permet d’être proposé à un coût inférieur à celui des solutions concurrentes : 2 dollars pour 1 000 pages, ou 1 dollar via la Batch API
- Il est possible d’intégrer le modèle mistral-ocr-2512 via API, ou de convertir des PDF et des images en texte ou en JSON structuré via l’interface Document AI Playground
Amélioration des performances et benchmarks
- Dans les benchmarks internes, il a enregistré un taux de victoire de 74 % par rapport à Mistral OCR 2
- Les tests ont été réalisés à partir de cas d’usage métier réels de clients, et la précision a été évaluée avec la fuzzy-match metric
- Il atteint une précision supérieure à celle des solutions de traitement documentaire pour l’entreprise et des OCR fondés sur l’IA
Principaux domaines d’amélioration
- Reconnaissance de l’écriture manuscrite : interprétation précise de l’écriture cursive, des annotations mixtes et du texte manuscrit sur des formulaires imprimés
- Traitement des formulaires : meilleure reconnaissance des cases, libellés, saisies manuscrites et mises en page complexes
- Documents numérisés et complexes : forte résistance aux artefacts de compression, aux déformations, à la basse résolution et au bruit de fond
- Structures de tableaux complexes : reproduction complète des tableaux comprenant en-têtes, cellules fusionnées et hiérarchies multi-lignes et multi-colonnes avec des balises HTML (
colspan/rowspan) - Amélioration globale des performances par rapport à Mistral OCR 2 sur toutes les langues et tous les formats documentaires
Cas d’usage et domaines d’application
- Adapté aussi bien aux pipelines documentaires d’entreprise à grande échelle qu’aux workflows documentaires interactifs
- Prend en charge notamment l’extraction de texte et d’images suivie de la conversion en Markdown, le parsing automatique de formulaires et de factures, la création de pipelines de compréhension documentaire, ainsi que la numérisation de documents manuscrits et historiques
- Les premiers clients l’utilisent déjà pour convertir des factures en champs structurés, numériser des archives d’entreprise, extraire le texte de rapports techniques et scientifiques, et améliorer la recherche en entreprise
- Tim Law, d’IDC, a déclaré que « l’OCR est une technologie de base pour l’IA générative et l’IA agentique, et que la capacité d’extraction de texte à haute précision et à faible coût détermine la compétitivité dans l’exploitation des données »
Approche et compatibilité
- Disponible immédiatement via API ou via l’interface Document AI Playground
- Entièrement compatible avec Mistral OCR 2, ce qui permet une mise à niveau facile dans les systèmes existants
- La documentation détaillée est disponible sur mistral.ai/docs
1 commentaires
Commentaires sur Hacker News
En voyant cette vidéo sur Twitter, je me suis demandé pourquoi Mistral ne se compare pas aux modèles SoTA les plus récents
Ce serait bien de le comparer à des modèles comme Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR ou PaddleOCR
Mistral se compare à des services classiques de computer vision, et non à des modèles basés sur des VLM
Les premiers comprennent mieux les documents, tandis que les seconds fournissent des bounding boxes précises
Les modes d’échec sont aussi différents — un VLM peut mal lire une phrase entière, alors qu’un modèle de vision fera plutôt des fautes au niveau d’un mot
Ces 3 derniers mois, énormément de modèles OCR open source sont sortis
En particulier, des modèles de moins de 1B de paramètres tournent très bien même sur des appareils edge
J’aurais aimé une comparaison avec paddleOCR-VL, olmOCR-2, chandra ou dots.ocr
C’est dommage qu’il n’y ait quasiment pas de leaderboards ou d’arènes liés à l’OCR ou à la CV
Le principe est de faire s’affronter les modèles comme sur llmarena, mais Mistral n’y a pas encore été mis à jour
Pour l’instant, Gemini est dans le haut du classement
Les autres OCR sont facturés au token, donc il est difficile d’estimer le coût réel
Par exemple, Gemini 3.0 flash semble avoir un prix similaire en apparence, mais au niveau réel par token, il revient environ 3 fois plus cher
J’ai donné les droits root à Claude pour qu’il l’installe à ma place, et il avait l’air de bien plus s’amuser que moi
J’ai eu une expérience similaire lors de l’installation de open web UI, et j’ai fini par coder moi-même uniquement la fonction nécessaire en 100 lignes de HTML
J’aimerais que l’OCR puisse aussi se faire aussi simplement
On dit que Mistral OCR 3 convient aux pipelines d’entreprise à grande échelle, mais avec une précision de 79 %, j’ai du mal à lui faire confiance
Dans mon travail sur des revues scientifiques, des erreurs de reconnaissance comme 2.9+0.5 au lieu de 29+0.5 sont critiques
Au final, une validation humaine est nécessaire à chaque étape
Je travaille sur un projet consistant à convertir un dictionnaire shipibo (langue autochtone du Pérou)-espagnol en dictionnaire shipibo-anglais
La qualité du scan PDF n’est pas bonne, et l’OCR échoue souvent à cause de la mise en page en deux colonnes et des en-têtes/pieds de page
C’est complexe, car il faut séparer les exemples en shipibo des définitions en espagnol pour ne traduire qu’en anglais
À chaque nouvelle annonce sur les OCR/LLM, j’essaie, et je suis déçu à chaque fois
Dans la culture shipibo, ce n’étaient pas les gens ordinaires mais les maestra qui prenaient de l’ayahuasca pour diagnostiquer les maladies
Elles suivaient une dieta propre à chaque plante, avec des restrictions sur l’usage du savon, les relations sexuelles, la consommation de sel, etc.
Traditionnellement, cela pouvait durer plus d’un an, même si aujourd’hui c’est souvent réduit à quelques semaines
J’ai trouvé impressionnante cette étude aussi approfondie de la médecine par les plantes
J’essaie de convertir un manuel de mathématiques en markdown avec des formules LaTeX, mais je n’ai pas encore trouvé de modèle OCR satisfaisant
Je vais le tester directement dans le OCR playground de Mistral
Les formules aussi sont converties parfaitement en LaTeX
Je cherche une traduction intégrée dans l’image (in-place translation)
Mistral OCR3 est centré sur l’extraction de données, donc cela ne correspond pas à mon usage
Je voudrais traduire du texte de livres d’art étrangers et l’afficher directement sur l’image, mais les services payants existants échouent à cause de dispositions de texte non standard
Pour l’instant, j’utilise Google Lens en pointant l’écran pour traduire, mais ce n’est pas pratique
Le Lens intégré à Chrome demande aussi une sélection manuelle, donc ce n’est pas totalement automatique
Est-ce que quelqu’un connaît des avancées dans ce domaine ?
J’ai l’impression que Mistral ne fait que poursuivre les fonctions périphériques de l’IA en ce moment
Il semble distancé par OAI, Google et Anthropic, et les investissements au niveau de l’UE paraissent insuffisants
C’est bien plus utile que de générer des mèmes
Comme le modèle économique n’est pas encore établi, Mistral a raison de se concentrer sur la qualité de ses modèles de base
L’objectif réaliste est de garder les talents en Europe et de produire de bons modèles
J’ai vu des avis selon lesquels Mistral serait moins performant que plusieurs OCR open source (Paddle, MinerU, MonkeyOCR, etc.)
Voir codesota.com/ocr
Je teste Mistral comme alternative à MathPix
Ce script Python est un prototype qui sniffe sous Windows puis envoie l’image du presse-papiers à Mistral, avec collage automatique du résultat Markdown
Le plus gros problème de Mistral, c’est l’absence de réponse aux demandes clients
Se cacher derrière « contactez-nous pour les tarifs » rend la chose inutile, même si le produit est meilleur que l’état de l’art
Je préfère encore choisir un service plus cher et moins performant s’il m’évite ce processus