Sortie de Mistral OCR 4
(mistral.ai)- Mistral OCR 4, dévoilé par Mistral AI, est un modèle de compréhension documentaire qui va au-delà d’un simple OCR extrayant du texte à partir de documents, en renvoyant aussi les boîtes englobantes, la classification des blocs et des scores de confiance inline
- Il prend en charge 170 langues réparties en 10 groupes linguistiques, ainsi que l’auto-hébergement dans un conteneur unique, ce qui le rend adapté aux pipelines de collecte documentaire d’organisations pour lesquelles la souveraineté des données et la conformité sont essentielles
- Dans les évaluations de préférence humaine, il a enregistré un taux de victoire moyen de 72 % et a également obtenu des scores élevés dans des évaluations publiques et internes, avec notamment 85.20 sur OlmOCRBench et 93.07 sur OmniDocBench
- Il faut toutefois lire les scores de benchmark en parallèle d’évaluations sur des documents réels, en raison de limites de notation liées aux erreurs de référence, aux notations mathématiques équivalentes, à l’ordre de lecture en multi-colonnes ou encore au traitement des en-têtes et pieds de page
- L’API coûte 4 $ pour 1 000 pages, la Batch API 2 $ et Document AI 5 $ ; OCR 4 suffit pour l’extraction brute, mais si vous avez besoin de JSON structuré, d’annotations d’images ou de prompts personnalisés, il vaut mieux passer par Document AI
Représentation documentaire structurée renvoyée par OCR 4
- OCR 4 extrait et structure le contenu de documents variés et, contrairement à la génération précédente, ne se limite pas à un texte propre et à la conversion de tableaux, mais fournit aussi une représentation structurée
- Chaque bloc inclut des boîtes englobantes, un type de bloc et des scores de confiance inline au niveau de la page et du mot
- Les systèmes downstream peuvent exploiter non seulement le contenu du document, mais aussi la position, le rôle et le niveau de confiance de chaque élément
- Les principaux flux d’usage sont les suivants
- Chunking par unité sémantique pour le RAG : utiliser les blocs nettoyés et classifiés comme unités de recherche
- Primitives de structure pour les agents : aide au remplissage de formulaires, au traitement de factures et aux contrôles de conformité
- Contenu structuré pour les connecteurs : fournir une sortie typée cohérente aux pipelines de collecte et d’indexation
Formats, langues et mode de déploiement
- Les formats d’entrée incluent les formats documentaires d’entreprise courants comme PDF, DOC, PPT et OpenDocument
- Il prend en charge 170 langues réparties en 10 groupes linguistiques, y compris des langues spécialisées ou à faibles ressources pour lesquelles de nombreux systèmes sont moins performants
- Le modèle est suffisamment compact pour être déployé dans un conteneur unique, ce qui le rend adapté aux environnements sensibles aux coûts et à fort débit
- Il prend en charge une exécution complète en auto-hébergement, permettant aux organisations ayant des exigences de souveraineté des données de conserver les données documentaires dans leur propre infrastructure
- Le déploiement autogéré est proposé aux clients enterprise
Tarification et modes d’utilisation
- Les développeurs peuvent intégrer le modèle via l’API, et les équipes peuvent utiliser le même moteur sous forme d’application no-code via Document AI dans Mistral Studio
- La tarification est la suivante
- API OCR 4 : 4 $ pour 1 000 pages
- Avec la remise de 50 % sur la Batch API : 2 $ pour 1 000 pages
- Document AI : 5 $ pour 1 000 pages
- OCR 4 est intégré comme composant de collecte dans le Mistral Search Toolkit, fournissant des entrées citables pour les workflows de collecte, recherche et évaluation destinés au RAG et à la recherche enterprise
Résultats d’évaluation et limites des benchmarks
- L’évaluation d’OCR 4 a été menée en comparaison avec des modèles OCR natifs IA, des modèles frontier généralistes, des services documentaires enterprise et Mistral OCR 3
- L’évaluation de préférence humaine, conçue pour refléter un usage réel, a porté sur plus de 600 documents couvrant plus de 12 langues, avec des annotateurs indépendants comparant à l’aveugle, document par document, la sortie de chaque système concurrent à celle d’OCR 4
- Les annotateurs ont majoritairement préféré OCR 4 pour la plupart des documents face à tous les systèmes testés
- Le taux de victoire moyen est de 72 %
- Sur le benchmark public OlmOCRBench, il obtient le meilleur score global parmi les modèles testés avec 85.20
- Dans l’évaluation interne Crawl Multilingual evaluation, il atteint .98, devant les solutions natives IA et enterprise
- Son score sur OmniDocBench est de 93.07, mais OlmOCRBench comme OmniDocBench présentent tous deux des limites connues dans certaines méthodes de notation des sorties
- Une grande partie des divergences auditées provient non d’erreurs du modèle, mais de la manière dont les benchmarks comparent les résultats
- Erreurs de référence : les annotations de référence peuvent contenir du texte omis ou ajouté, des transcriptions de zones masquées ou des fautes de frappe
- Notation mathématique équivalente : même si le rendu d’un LaTeX est identique, une chaîne différente est comptée comme une divergence
- Découpage des formules : selon qu’une formule est exportée comme un seul élément ou comme plusieurs fragments inline, l’appariement à la vérité terrain peut varier
- Ordre de lecture en multi-colonnes : des mots coupés aux frontières de colonnes et certaines hypothèses sur l’ordre des colonnes peuvent faire noter comme erronée une extraction pourtant correcte
- Attribution du type de bloc : même après suppression des en-têtes et pieds de page de la sortie, le test peut signaler à tort des chaînes comme les titres de page
- Ces artefacts se concentrent sur les documents mathématiques, scientifiques et multi-colonnes, et ont tendance à pénaliser plus souvent des sorties correctes qu’à récompenser des sorties incorrectes
- Tous les scores des concurrents résultent de reproductions internes ; avant toute adoption réelle, il est donc plus sûr d’évaluer directement sur ses propres documents
Performances multilingues
- Dans l’évaluation multilingue interne, OCR 4 arrive en tête dans les 8 groupes linguistiques
- English
- Western Europe
- Eastern Europe
- Middle Eastern
- Chinese
- East Asian
- Southeast Asian
- Hindi, Japanese, Georgian, Bengali, Armenian, Hebrew, Greek, Gujarati, Tamil, Malayalam, Kannada, Telugu et autres langues spécialisées
- L’écart est le plus marqué sur les langues spécialisées ou à faibles ressources, où OCR 4 maintient une grande précision même dans des domaines où de nombreux systèmes concurrents chutent fortement
Cas d’usage recommandés et périmètre d’exclusion
- OCR 4 prend en charge à la fois les pipelines à fort débit et les workflows documentaires interactifs
- Les cas d’usage recommandés sont les suivants
- Parsing et extraction de documents multilingues complexes
- Génération de contenus structurés, classifiés et citables pour le RAG
- Entrée de pipelines de recherche combinée au Search Toolkit
- Workflows d’agents comme le remplissage de formulaires, le traitement de factures et les contrôles de conformité
- Pipelines de données structurées avec validation humaine s’appuyant sur les scores de confiance
- Composant de source de données pour la recherche enterprise et les bases de connaissances
- Les premiers utilisateurs appliquent déjà OCR 4 à la conversion de champs structurés de factures, à la numérisation d’archives d’entreprise, à l’extraction de texte propre à partir de rapports techniques et scientifiques, ainsi qu’à la recherche enterprise
- OCR 4 est un modèle de compréhension documentaire, pas un décideur
- Il n’est pas destiné au diagnostic médical, au conseil ou au jugement juridique, aux décisions financières à haut risque, aux systèmes critiques pour la sécurité, aux traitements temps réel ou sensibles à la latence, ni aux entrées non documentaires comme l’audio ou la vidéo bruts
Comment choisir entre l’API OCR 4 et Document AI
- OCR 4 est proposé via un point de terminaison API unique, et toutes les requêtes exécutent le même modèle OCR de base
- La réponse par défaut inclut toujours le contenu extrait, les boîtes englobantes, les types de blocs, les scores de confiance et du texte structuré en Markdown
- Le mode extraction pure convient dans les cas suivants
- Intégrer directement une extraction documentaire rapide et précise dans des applications, agents ou pipelines de données
- Exploiter directement la réponse brute, les boîtes englobantes, les types de blocs et les scores de confiance pour construire une logique de post-traitement personnalisée
- Réaliser une collecte batch à fort débit en contrôlant débit et coût via la Batch API
- Répondre à des exigences strictes de confidentialité, de souveraineté et de conformité via l’auto-hébergement
- Les fonctionnalités Document AI s’activent en ajoutant des paramètres supplémentaires au même point de terminaison
- Si vous transmettez un schéma JSON avec le document, la sortie OCR est fournie à
mistral-small-2603afin de générer un JSON structuré conforme à la spécification demandée - Si vous transmettez un schéma d’annotation d’image, des appels supplémentaires à un modèle vision-langage génèrent un JSON structuré pour chaque image détectée
- Vous pouvez utiliser un prompt personnalisé avec un schéma JSON pour guider l’interprétation ou le résumé du contenu extrait du document entier
- Les utilisateurs métier, équipes solution et projets pilotes peuvent ainsi produire des résultats structurés sans logique de parsing et de post-traitement séparée
- Si vous transmettez un schéma JSON avec le document, la sortie OCR est fournie à
- Si vous avez besoin du contenu extrait brut, utilisez simplement OCR 4 ; si vous avez besoin d’un reformatage structuré, d’annotations de champs métier ou d’un traitement guidé par instructions personnalisées, ajoutez les paramètres Document AI
Canaux de disponibilité et prise en main
- Mistral OCRv4 et Document AI basé sur OCRv4 sont disponibles via l’API, Mistral Studio, Amazon SageMaker et Microsoft Foundry
- La prise en charge de Snowflake Parse Document sera bientôt disponible
- Pour les organisations qui doivent conserver des informations sensibles dans leur propre infrastructure, OCR 4 propose aussi une option d’auto-hébergement
- Les ressources de démarrage sont les suivantes
- Getting Started with OCR 4 Cookbook : couvre la première extraction, la manipulation des boîtes englobantes et la classification des blocs
- OCR4 in Production webinar : démo et questions-réponses le 7 juillet à 18 h CET
- Contact Sales : pour demander plus d’informations
1 commentaires
Commentaires Hacker News
US Postal Service a toujours quelque chose de techniquement fascinant
Avec une technologie bien plus rudimentaire, ils arrivent à identifier et acheminer des milliards de courriers, et les adresses américaines sont incroyablement peu standardisées, au point qu’une même adresse peut être écrite de plusieurs façons tout en arrivant au bon endroit
Il existe sûrement beaucoup de connaissances publiques dans ce domaine, mais quand on voit ce que l’USPS fait à cette échelle depuis des années, chaque annonce sur l’OCR donne l’impression d’un problème déjà résolu
C’était dans les années 1970, sans Internet ni base de données centralisée, et pourtant le service postal a réussi à la livrer
C’était probablement parce que mon père était très impliqué dans l’action sociale et dirigeait aussi une équipe de football pour jeunes, donc il était assez connu dans le quartier juste avec son nom
Aujourd’hui, on a souvent du mal à retrouver des personnes ou des lieux sans l’aide du téléphone portable, et les facteurs ne s’arrêtent plus pour discuter
Une telle lettre ne passerait sans doute ni le traitement technique, ni probablement le réseau humain
Une fois la lettre arrivée au bon bureau de poste, le reste était traité par les facteurs tôt le matin
C’était assez amusant d’essayer de deviner ce que signifiaient certaines adresses, et surtout les employés les plus âgés connaissaient parfois l’histoire derrière une formulation d’adresse particulière, ou devinaient l’adresse à partir du seul nom du destinataire
À Carmel-by-the-Sea, il n’y a pas de numéros de rue, et dans les Florida Keys, l’adresse correspond souvent simplement à un numéro de borne kilométrique
Si la distribution fonctionne, c’est parce que la personne chargée de cette tournée connaît bien le secteur
Je me demande s’il existe des modèles open source spécialisés dans la reconnaissance de plaques d’immatriculation
J’en ai trouvé quelques anciens, mais je me demande s’il y en a de nouveaux en développement, dans le style de ces modèles OCR
On pourrait aussi l’essayer directement pour cet usage et voir ce que ça donne
La vidéo sur la page liée n’était pas ce à quoi je m’attendais
Je pensais que Mistral était une entreprise européenne d’IA, donc j’ai été surpris de voir que la vidéo avait été tournée à San Francisco et que les trois personnes à l’écran n’avaient pas l’air européennes
C’est très bien d’être une organisation globale, mais je m’attendais à un bureau parisien et à des accents européens
Ils posent beaucoup de questions et ouvrent très peu leur portefeuille, alors que les Américains sont différents
Il y a probablement aussi de l’ingénierie commerciale
Avec 8 à 10 heures de décalage horaire, c’est en pratique impossible à éviter
Une entreprise où j’ai travaillé avait à la place un bureau à Vancouver, dans le même fuseau horaire
Bien que l’entreprise soit majoritairement basée en Australie, l’ordre de la liste des bureaux sur https://www.blackmagicdesign.com/company/offices et la page entreprise lui donnent l’air d’une société américaine
De ce point de vue, ils tirent intelligemment parti des deux mondes : les financements américains et les talents européens
Je serais curieux de voir où ce modèle se classerait par rapport à https://github.com/baidu/Unlimited-OCR
4 dollars pour 1 000 pages, c’est peu cher, mais comme toutes les versions précédentes affichaient des choses du genre « 98 % de précision sur 4 PDF de benchmark internes » alors qu’en pratique elles étaient inférieures à presque toutes les alternatives du marché, ça ne donne pas très envie de refaire des benchmarks
Cette fois encore, ils mettent en avant des chiffres issus de benchmarks internes en disant qu’OlmOCRBench et OmniDocBench ont des « limites connues »
https://getomni.ai/blog/benchmarking-open-source-models-for-ocr
Tous les laboratoires d’IA devraient vraiment arrêter d’utiliser des axes Y tronqués dans leurs histogrammes de benchmark
https://mistral.ai/_astro/cm-engish_ZhlvoT.webp?dpl=6a3a94bd1f38530b2974c539
Je l’ai testé en malayalam : une écriture ordinaire était reconnue correctement, mais un style un peu différent a été détecté comme du kannada
Je peux fournir des échantillons si besoin, et Sarvam a traité le même exemple avec 99 % de précision, en ne laissant qu’une seule erreur de texte
Par exemple sur de l’Indian English, sur des documents mêlant des expressions indiennes écrites en alphabet latin, ou sur des documents avec des mises en page complexes comme des images et des tableaux
Je m’intéresse à ces services indiens, mais leurs tarifs me paraissent un peu élevés de prime abord, ce qui me fait hésiter
Cela dit, il est possible que je me trompe
Par rapport à l’ancien modèle OCR v3 de décembre, presque aucune différence n’est expliquée en dehors des boîtes englobantes, et le prix a doublé : https://mistral.ai/news/mistral-ocr-3/
À l’époque, ils utilisaient d’autres benchmarks
« Remarque sur les usages hors périmètre. OCR 4 est un modèle de compréhension de documents, pas un décideur. Il n’est pas destiné au diagnostic médical, au conseil ou jugement juridique, aux décisions financières à haut risque, aux systèmes critiques pour la sécurité, au traitement en temps réel/sensible à la latence, ni aux entrées non documentaires (audio brut, vidéo, etc.). »
J’attends déjà avec impatience le manager « innovant » qui proposera à la prochaine réunion : « D’accord, mais si on l’utilisait pour des décisions financières à haut risque à partir d’entrées non documentaires comme des photos prises au téléphone ? »
Je parie que d’ici la semaine prochaine, quelqu’un postera cette « idée » en commentaire sur HN
Il existe des dizaines de modèles plus performants, et ça ne donnerait que des résultats médiocres en comparaison
Ce n’est pas un modèle qui répond à des questions, c’est fait pour la conversion de texte
On dirait juste une tentative forcée de prendre un angle anti-IA
Mistral l’affiche simplement plus honnêtement, probablement parce qu’ils n’ont ni besoin ni envie d’impressionner le public avec un outil utilisateur généraliste (chat) qui donne l’air d’être expert en tout
En pratique, ces outils sont eux aussi assez souvent un assemblage de plusieurs modèles spécialisés
Ce qu’on veut ici peut se faire avec quelques scripts Python
Avec Voxtral, on convertit le prompt vocal en texte, puis on l’envoie à Mistral Large 3 avec un prompt système supplémentaire pour générer un prompt d’OCR et un chemin de fichier, ensuite une boucle retrouve le fichier, l’envoie à OCR 3, puis repasse le résultat à Mistral Large 3 pour l’interpréter et le transformer en décision
Ce genre de montage est courant ; il est plutôt rare qu’un seul modèle fasse absolument tout
J’ai récemment essayé de faire de l’OCR avec Opus 4.8
À strictement parler, ce n’était pas le bon outil, mais je n’avais besoin que d’extraire la date sur des reçus
Il s’est trompé sur environ 20 % des dates tout en les évaluant toutes avec une « confiance élevée »
J’aurais probablement dû utiliser un modèle spécialisé en OCR
Même les outils d’OCR shareware fournis autrefois avec les scanners noir et blanc devaient sans doute faire mieux que 20 % d’erreurs
Ça ressemble à un outil OCR séparé et ancien, et les résultats aux tests étaient mauvais
En revanche, dans l’API Gemini, le modèle faisait lui-même l’OCR et la précision était bien meilleure
Bien mieux que les petits modèles vision-langage de 1 à 4B
Si Opus a échoué, il y a de fortes chances que la plupart de ces petits modèles échouent aussi
J’ai récemment scanné des centaines de PDF avec Opus 4.8, dont certains avec une écriture manuscrite épouvantable, et à part un document que même moi je n’arrivais pas à lire, j’ai eu 100 % de réussite