Sortie de Mistral OCR 3

(mistral.ai)

2 points par GN⁺ 2025-12-20 | 1 commentaires | Partager sur WhatsApp

Modèle OCR de nouvelle génération qui améliore à la fois la précision et l’efficacité du traitement documentaire, avec de hautes performances de reconnaissance sur divers types de documents
Il affiche une amélioration globale des performances de 74 % par rapport à la version précédente, avec d’excellents résultats sur l’écriture manuscrite, les formulaires, les tableaux complexes et les documents numérisés
La reconstruction de tableaux basée sur HTML et la prise en charge de la sortie Markdown permettent de préserver aussi les informations structurelles des documents
2 dollars pour 1 000 pages, avec 50 % de réduction pour le traitement en masse, assurant une bonne efficacité coût
Technologie OCR exploitable aussi bien pour les pipelines documentaires d’entreprise à grande échelle que pour les workflows documentaires interactifs, et qui s’impose comme une infrastructure clé pour l’exploitation des données fondée sur l’IA générative

Principales performances et caractéristiques

Mistral OCR 3 réalise avec une grande précision l’extraction de texte et d’images intégrées dans divers documents
- Il prend en charge la sortie au format Markdown et la reconstruction de tableaux en HTML, ce qui permet de reconnaître non seulement le contenu, mais aussi la structure des documents
- La taille du modèle est réduite, ce qui lui permet d’être proposé à un coût inférieur à celui des solutions concurrentes : 2 dollars pour 1 000 pages, ou 1 dollar via la Batch API
Il est possible d’intégrer le modèle mistral-ocr-2512 via API, ou de convertir des PDF et des images en texte ou en JSON structuré via l’interface Document AI Playground

Amélioration des performances et benchmarks

Dans les benchmarks internes, il a enregistré un taux de victoire de 74 % par rapport à Mistral OCR 2
- Les tests ont été réalisés à partir de cas d’usage métier réels de clients, et la précision a été évaluée avec la fuzzy-match metric
Il atteint une précision supérieure à celle des solutions de traitement documentaire pour l’entreprise et des OCR fondés sur l’IA

Principaux domaines d’amélioration

Reconnaissance de l’écriture manuscrite : interprétation précise de l’écriture cursive, des annotations mixtes et du texte manuscrit sur des formulaires imprimés
Traitement des formulaires : meilleure reconnaissance des cases, libellés, saisies manuscrites et mises en page complexes
Documents numérisés et complexes : forte résistance aux artefacts de compression, aux déformations, à la basse résolution et au bruit de fond
Structures de tableaux complexes : reproduction complète des tableaux comprenant en-têtes, cellules fusionnées et hiérarchies multi-lignes et multi-colonnes avec des balises HTML (colspan/rowspan)
Amélioration globale des performances par rapport à Mistral OCR 2 sur toutes les langues et tous les formats documentaires

Cas d’usage et domaines d’application

Adapté aussi bien aux pipelines documentaires d’entreprise à grande échelle qu’aux workflows documentaires interactifs
- Prend en charge notamment l’extraction de texte et d’images suivie de la conversion en Markdown, le parsing automatique de formulaires et de factures, la création de pipelines de compréhension documentaire, ainsi que la numérisation de documents manuscrits et historiques
Les premiers clients l’utilisent déjà pour convertir des factures en champs structurés, numériser des archives d’entreprise, extraire le texte de rapports techniques et scientifiques, et améliorer la recherche en entreprise
Tim Law, d’IDC, a déclaré que « l’OCR est une technologie de base pour l’IA générative et l’IA agentique, et que la capacité d’extraction de texte à haute précision et à faible coût détermine la compétitivité dans l’exploitation des données »

Approche et compatibilité

Disponible immédiatement via API ou via l’interface Document AI Playground
Entièrement compatible avec Mistral OCR 2, ce qui permet une mise à niveau facile dans les systèmes existants
La documentation détaillée est disponible sur mistral.ai/docs

1 commentaires

GN⁺ 2025-12-20

Commentaires sur Hacker News

En voyant cette vidéo sur Twitter, je me suis demandé pourquoi Mistral ne se compare pas aux modèles SoTA les plus récents
Ce serait bien de le comparer à des modèles comme Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR ou PaddleOCR
- Pour avoir beaucoup travaillé sur l’extraction de documents, je trouve le ton du tweet un peu agaçant, mais sur le fond il a raison
  Mistral se compare à des services classiques de computer vision, et non à des modèles basés sur des VLM
  Les premiers comprennent mieux les documents, tandis que les seconds fournissent des bounding boxes précises
  Les modes d’échec sont aussi différents — un VLM peut mal lire une phrase entière, alors qu’un modèle de vision fera plutôt des fautes au niveau d’un mot
- J’ai cliqué sur le lien, et j’ai eu l’impression que l’ambiance sur Twitter était devenue beaucoup plus étrange qu’avant
- J’aimerais aussi voir une comparaison avec Qwen 3 VL 235B-A22B. Dans mon expérience, il était bien meilleur que MinerU
Ces 3 derniers mois, énormément de modèles OCR open source sont sortis
En particulier, des modèles de moins de 1B de paramètres tournent très bien même sur des appareils edge
J’aurais aimé une comparaison avec paddleOCR-VL, olmOCR-2, chandra ou dots.ocr
C’est dommage qu’il n’y ait quasiment pas de leaderboards ou d’arènes liés à l’OCR ou à la CV
- Il y a environ un mois, un projet appelé ocrarena.ai avait été publié
  Le principe est de faire s’affronter les modèles comme sur llmarena, mais Mistral n’y a pas encore été mis à jour
  Pour l’instant, Gemini est dans le haut du classement
- L’avantage de MistralOCR, c’est sa politique tarifaire simple — 1 $ pour 1 000 pages, avec une API hébergée côté serveur
  Les autres OCR sont facturés au token, donc il est difficile d’estimer le coût réel
  Par exemple, Gemini 3.0 flash semble avoir un prix similaire en apparence, mais au niveau réel par token, il revient environ 3 fois plus cher
- J’ai essayé d’installer paddleOCR, mais j’ai abandonné après avoir tenté d’installer 12 Go de dépendances PyTorch à cause de conflits de version
  J’ai donné les droits root à Claude pour qu’il l’installe à ma place, et il avait l’air de bien plus s’amuser que moi
  J’ai eu une expérience similaire lors de l’installation de open web UI, et j’ai fini par coder moi-même uniquement la fonction nécessaire en 100 lignes de HTML
  J’aimerais que l’OCR puisse aussi se faire aussi simplement
- codesota.com/ocr mérite aussi d’être consulté
On dit que Mistral OCR 3 convient aux pipelines d’entreprise à grande échelle, mais avec une précision de 79 %, j’ai du mal à lui faire confiance
Dans mon travail sur des revues scientifiques, des erreurs de reconnaissance comme 2.9+0.5 au lieu de 29+0.5 sont critiques
Au final, une validation humaine est nécessaire à chaque étape
- Dans ce genre de cas, datalab.to était plutôt bon
- 79 % semble être un taux de victoire, pas un taux de précision
Je travaille sur un projet consistant à convertir un dictionnaire shipibo (langue autochtone du Pérou)-espagnol en dictionnaire shipibo-anglais
La qualité du scan PDF n’est pas bonne, et l’OCR échoue souvent à cause de la mise en page en deux colonnes et des en-têtes/pieds de page
C’est complexe, car il faut séparer les exemples en shipibo des définitions en espagnol pour ne traduire qu’en anglais
À chaque nouvelle annonce sur les OCR/LLM, j’essaie, et je suis déçu à chaque fois
- Je me demande si cela intéresse quelqu’un qui étudie la tradition de l’ayahuasca
  Dans la culture shipibo, ce n’étaient pas les gens ordinaires mais les maestra qui prenaient de l’ayahuasca pour diagnostiquer les maladies
  Elles suivaient une dieta propre à chaque plante, avec des restrictions sur l’usage du savon, les relations sexuelles, la consommation de sel, etc.
  Traditionnellement, cela pouvait durer plus d’un an, même si aujourd’hui c’est souvent réduit à quelques semaines
  J’ai trouvé impressionnante cette étude aussi approfondie de la médecine par les plantes
J’essaie de convertir un manuel de mathématiques en markdown avec des formules LaTeX, mais je n’ai pas encore trouvé de modèle OCR satisfaisant
Je vais le tester directement dans le OCR playground de Mistral
- J’ai traité des milliers de documents avec le modèle Gemini Pro 3 vision, et jusqu’ici il a été de loin le plus précis de tous les OCR que j’ai utilisés
  Les formules aussi sont converties parfaitement en LaTeX
- J’aimerais vraiment que tu partages les résultats
Je cherche une traduction intégrée dans l’image (in-place translation)
Mistral OCR3 est centré sur l’extraction de données, donc cela ne correspond pas à mon usage
Je voudrais traduire du texte de livres d’art étrangers et l’afficher directement sur l’image, mais les services payants existants échouent à cause de dispositions de texte non standard
Pour l’instant, j’utilise Google Lens en pointant l’écran pour traduire, mais ce n’est pas pratique
Le Lens intégré à Chrome demande aussi une sélection manuelle, donc ce n’est pas totalement automatique
Est-ce que quelqu’un connaît des avancées dans ce domaine ?
- Si le payant ne te dérange pas, DEEPL ou la fonction de traduction de documents de Word sont plutôt utilisables
J’ai l’impression que Mistral ne fait que poursuivre les fonctions périphériques de l’IA en ce moment
Il semble distancé par OAI, Google et Anthropic, et les investissements au niveau de l’UE paraissent insuffisants
- Justement, les fonctions pratiques comme le traitement de formulaires sont ce dont les gens ont vraiment besoin
  C’est bien plus utile que de générer des mèmes
- Suivre les leaders à l’identique est risqué
  Comme le modèle économique n’est pas encore établi, Mistral a raison de se concentrer sur la qualité de ses modèles de base
  L’objectif réaliste est de garder les talents en Europe et de produire de bons modèles
- L’UE « investit » beaucoup dans Mistral — la moitié via la fiscalité, l’autre via des discussions réglementaires
- Les régulations de l’UE freinent tellement la situation que l’entreprise finira probablement par être rachetée par une société américaine
- Malgré tout, je pense que c’est mieux que de copier exactement ce que font les autres
J’ai vu des avis selon lesquels Mistral serait moins performant que plusieurs OCR open source (Paddle, MinerU, MonkeyOCR, etc.)
Voir codesota.com/ocr
Je teste Mistral comme alternative à MathPix
Ce script Python est un prototype qui sniffe sous Windows puis envoie l’image du presse-papiers à Mistral, avec collage automatique du résultat Markdown
Le plus gros problème de Mistral, c’est l’absence de réponse aux demandes clients
Se cacher derrière « contactez-nous pour les tarifs » rend la chose inutile, même si le produit est meilleur que l’état de l’art
- Moi aussi, je déteste au plus haut point les échanges en face à face avec un commercial
  Je préfère encore choisir un service plus cher et moins performant s’il m’évite ce processus

Sortie de Mistral OCR 3

Principales performances et caractéristiques

Amélioration des performances et benchmarks

Principaux domaines d’amélioration

Cas d’usage et domaines d’application

Approche et compatibilité

À lire aussi

1 commentaires

Commentaires sur Hacker News