Sortie de Mistral OCR 4

(mistral.ai)

1 points par GN⁺ 3 시간 전 | 1 commentaires | Partager sur WhatsApp

Mistral OCR 4, dévoilé par Mistral AI, est un modèle de compréhension documentaire qui va au-delà d’un simple OCR extrayant du texte à partir de documents, en renvoyant aussi les boîtes englobantes, la classification des blocs et des scores de confiance inline
Il prend en charge 170 langues réparties en 10 groupes linguistiques, ainsi que l’auto-hébergement dans un conteneur unique, ce qui le rend adapté aux pipelines de collecte documentaire d’organisations pour lesquelles la souveraineté des données et la conformité sont essentielles
Dans les évaluations de préférence humaine, il a enregistré un taux de victoire moyen de 72 % et a également obtenu des scores élevés dans des évaluations publiques et internes, avec notamment 85.20 sur OlmOCRBench et 93.07 sur OmniDocBench
Il faut toutefois lire les scores de benchmark en parallèle d’évaluations sur des documents réels, en raison de limites de notation liées aux erreurs de référence, aux notations mathématiques équivalentes, à l’ordre de lecture en multi-colonnes ou encore au traitement des en-têtes et pieds de page
L’API coûte 4 $ pour 1 000 pages, la Batch API 2 $ et Document AI 5 $ ; OCR 4 suffit pour l’extraction brute, mais si vous avez besoin de JSON structuré, d’annotations d’images ou de prompts personnalisés, il vaut mieux passer par Document AI

Représentation documentaire structurée renvoyée par OCR 4

OCR 4 extrait et structure le contenu de documents variés et, contrairement à la génération précédente, ne se limite pas à un texte propre et à la conversion de tableaux, mais fournit aussi une représentation structurée
Chaque bloc inclut des boîtes englobantes, un type de bloc et des scores de confiance inline au niveau de la page et du mot
- Les systèmes downstream peuvent exploiter non seulement le contenu du document, mais aussi la position, le rôle et le niveau de confiance de chaque élément
Les principaux flux d’usage sont les suivants
- Chunking par unité sémantique pour le RAG : utiliser les blocs nettoyés et classifiés comme unités de recherche
- Primitives de structure pour les agents : aide au remplissage de formulaires, au traitement de factures et aux contrôles de conformité
- Contenu structuré pour les connecteurs : fournir une sortie typée cohérente aux pipelines de collecte et d’indexation

Formats, langues et mode de déploiement

Les formats d’entrée incluent les formats documentaires d’entreprise courants comme PDF, DOC, PPT et OpenDocument
Il prend en charge 170 langues réparties en 10 groupes linguistiques, y compris des langues spécialisées ou à faibles ressources pour lesquelles de nombreux systèmes sont moins performants
Le modèle est suffisamment compact pour être déployé dans un conteneur unique, ce qui le rend adapté aux environnements sensibles aux coûts et à fort débit
Il prend en charge une exécution complète en auto-hébergement, permettant aux organisations ayant des exigences de souveraineté des données de conserver les données documentaires dans leur propre infrastructure
Le déploiement autogéré est proposé aux clients enterprise

Tarification et modes d’utilisation

Les développeurs peuvent intégrer le modèle via l’API, et les équipes peuvent utiliser le même moteur sous forme d’application no-code via Document AI dans Mistral Studio
La tarification est la suivante
- API OCR 4 : 4 $ pour 1 000 pages
- Avec la remise de 50 % sur la Batch API : 2 $ pour 1 000 pages
- Document AI : 5 $ pour 1 000 pages
OCR 4 est intégré comme composant de collecte dans le Mistral Search Toolkit, fournissant des entrées citables pour les workflows de collecte, recherche et évaluation destinés au RAG et à la recherche enterprise

Résultats d’évaluation et limites des benchmarks

L’évaluation d’OCR 4 a été menée en comparaison avec des modèles OCR natifs IA, des modèles frontier généralistes, des services documentaires enterprise et Mistral OCR 3
L’évaluation de préférence humaine, conçue pour refléter un usage réel, a porté sur plus de 600 documents couvrant plus de 12 langues, avec des annotateurs indépendants comparant à l’aveugle, document par document, la sortie de chaque système concurrent à celle d’OCR 4
- Les annotateurs ont majoritairement préféré OCR 4 pour la plupart des documents face à tous les systèmes testés
- Le taux de victoire moyen est de 72 %
Sur le benchmark public OlmOCRBench, il obtient le meilleur score global parmi les modèles testés avec 85.20
Dans l’évaluation interne Crawl Multilingual evaluation, il atteint .98, devant les solutions natives IA et enterprise
Son score sur OmniDocBench est de 93.07, mais OlmOCRBench comme OmniDocBench présentent tous deux des limites connues dans certaines méthodes de notation des sorties
Une grande partie des divergences auditées provient non d’erreurs du modèle, mais de la manière dont les benchmarks comparent les résultats
- Erreurs de référence : les annotations de référence peuvent contenir du texte omis ou ajouté, des transcriptions de zones masquées ou des fautes de frappe
- Notation mathématique équivalente : même si le rendu d’un LaTeX est identique, une chaîne différente est comptée comme une divergence
- Découpage des formules : selon qu’une formule est exportée comme un seul élément ou comme plusieurs fragments inline, l’appariement à la vérité terrain peut varier
- Ordre de lecture en multi-colonnes : des mots coupés aux frontières de colonnes et certaines hypothèses sur l’ordre des colonnes peuvent faire noter comme erronée une extraction pourtant correcte
- Attribution du type de bloc : même après suppression des en-têtes et pieds de page de la sortie, le test peut signaler à tort des chaînes comme les titres de page
Ces artefacts se concentrent sur les documents mathématiques, scientifiques et multi-colonnes, et ont tendance à pénaliser plus souvent des sorties correctes qu’à récompenser des sorties incorrectes
Tous les scores des concurrents résultent de reproductions internes ; avant toute adoption réelle, il est donc plus sûr d’évaluer directement sur ses propres documents

Performances multilingues

Dans l’évaluation multilingue interne, OCR 4 arrive en tête dans les 8 groupes linguistiques
- English
- Western Europe
- Eastern Europe
- Middle Eastern
- Chinese
- East Asian
- Southeast Asian
- Hindi, Japanese, Georgian, Bengali, Armenian, Hebrew, Greek, Gujarati, Tamil, Malayalam, Kannada, Telugu et autres langues spécialisées
L’écart est le plus marqué sur les langues spécialisées ou à faibles ressources, où OCR 4 maintient une grande précision même dans des domaines où de nombreux systèmes concurrents chutent fortement

Cas d’usage recommandés et périmètre d’exclusion

OCR 4 prend en charge à la fois les pipelines à fort débit et les workflows documentaires interactifs
Les cas d’usage recommandés sont les suivants
- Parsing et extraction de documents multilingues complexes
- Génération de contenus structurés, classifiés et citables pour le RAG
- Entrée de pipelines de recherche combinée au Search Toolkit
- Workflows d’agents comme le remplissage de formulaires, le traitement de factures et les contrôles de conformité
- Pipelines de données structurées avec validation humaine s’appuyant sur les scores de confiance
- Composant de source de données pour la recherche enterprise et les bases de connaissances
Les premiers utilisateurs appliquent déjà OCR 4 à la conversion de champs structurés de factures, à la numérisation d’archives d’entreprise, à l’extraction de texte propre à partir de rapports techniques et scientifiques, ainsi qu’à la recherche enterprise
OCR 4 est un modèle de compréhension documentaire, pas un décideur
- Il n’est pas destiné au diagnostic médical, au conseil ou au jugement juridique, aux décisions financières à haut risque, aux systèmes critiques pour la sécurité, aux traitements temps réel ou sensibles à la latence, ni aux entrées non documentaires comme l’audio ou la vidéo bruts

Comment choisir entre l’API OCR 4 et Document AI

OCR 4 est proposé via un point de terminaison API unique, et toutes les requêtes exécutent le même modèle OCR de base
La réponse par défaut inclut toujours le contenu extrait, les boîtes englobantes, les types de blocs, les scores de confiance et du texte structuré en Markdown
Le mode extraction pure convient dans les cas suivants
- Intégrer directement une extraction documentaire rapide et précise dans des applications, agents ou pipelines de données
- Exploiter directement la réponse brute, les boîtes englobantes, les types de blocs et les scores de confiance pour construire une logique de post-traitement personnalisée
- Réaliser une collecte batch à fort débit en contrôlant débit et coût via la Batch API
- Répondre à des exigences strictes de confidentialité, de souveraineté et de conformité via l’auto-hébergement
Les fonctionnalités Document AI s’activent en ajoutant des paramètres supplémentaires au même point de terminaison
- Si vous transmettez un schéma JSON avec le document, la sortie OCR est fournie à mistral-small-2603 afin de générer un JSON structuré conforme à la spécification demandée
- Si vous transmettez un schéma d’annotation d’image, des appels supplémentaires à un modèle vision-langage génèrent un JSON structuré pour chaque image détectée
- Vous pouvez utiliser un prompt personnalisé avec un schéma JSON pour guider l’interprétation ou le résumé du contenu extrait du document entier
- Les utilisateurs métier, équipes solution et projets pilotes peuvent ainsi produire des résultats structurés sans logique de parsing et de post-traitement séparée
Si vous avez besoin du contenu extrait brut, utilisez simplement OCR 4 ; si vous avez besoin d’un reformatage structuré, d’annotations de champs métier ou d’un traitement guidé par instructions personnalisées, ajoutez les paramètres Document AI

Canaux de disponibilité et prise en main

Mistral OCRv4 et Document AI basé sur OCRv4 sont disponibles via l’API, Mistral Studio, Amazon SageMaker et Microsoft Foundry
La prise en charge de Snowflake Parse Document sera bientôt disponible
Pour les organisations qui doivent conserver des informations sensibles dans leur propre infrastructure, OCR 4 propose aussi une option d’auto-hébergement
Les ressources de démarrage sont les suivantes
- Getting Started with OCR 4 Cookbook : couvre la première extraction, la manipulation des boîtes englobantes et la classification des blocs
- OCR4 in Production webinar : démo et questions-réponses le 7 juillet à 18 h CET
- Contact Sales : pour demander plus d’informations

1 commentaires

GN⁺ 3 시간 전

Commentaires Hacker News

US Postal Service a toujours quelque chose de techniquement fascinant
Avec une technologie bien plus rudimentaire, ils arrivent à identifier et acheminer des milliards de courriers, et les adresses américaines sont incroyablement peu standardisées, au point qu’une même adresse peut être écrite de plusieurs façons tout en arrivant au bon endroit
Il existe sûrement beaucoup de connaissances publiques dans ce domaine, mais quand on voit ce que l’USPS fait à cette échelle depuis des années, chaque annonce sur l’OCR donne l’impression d’un problème déjà résolu
- Mon père a un jour reçu une lettre venue d’Algérie dont l’enveloppe ne portait que trois mots : son nom, « Créteil » (une ville d’environ 100 000 habitants à l’époque) et « France »
  C’était dans les années 1970, sans Internet ni base de données centralisée, et pourtant le service postal a réussi à la livrer
  C’était probablement parce que mon père était très impliqué dans l’action sociale et dirigeait aussi une équipe de football pour jeunes, donc il était assez connu dans le quartier juste avec son nom
  Aujourd’hui, on a souvent du mal à retrouver des personnes ou des lieux sans l’aide du téléphone portable, et les facteurs ne s’arrêtent plus pour discuter
  Une telle lettre ne passerait sans doute ni le traitement technique, ni probablement le réseau humain
- J’ai travaillé autrefois à temps partiel pour le service postal danois, et le tri automatique n’allait que jusqu’au code postal
  Une fois la lettre arrivée au bon bureau de poste, le reste était traité par les facteurs tôt le matin
  C’était assez amusant d’essayer de deviner ce que signifiaient certaines adresses, et surtout les employés les plus âgés connaissaient parfois l’histoire derrière une formulation d’adresse particulière, ou devinaient l’adresse à partir du seul nom du destinataire
- Tom Scott a fait une bonne vidéo sur le sujet : https://www.youtube.com/watch?v=XxCha4Kez9c
- Les adresses américaines ont beaucoup d’exceptions bizarres
  À Carmel-by-the-Sea, il n’y a pas de numéros de rue, et dans les Florida Keys, l’adresse correspond souvent simplement à un numéro de borne kilométrique
  Si la distribution fonctionne, c’est parce que la personne chargée de cette tournée connaît bien le secteur
- Vu depuis le référentiel des adresses en Inde, la non-standardisation des adresses américaines fait presque rire
Je me demande s’il existe des modèles open source spécialisés dans la reconnaissance de plaques d’immatriculation
J’en ai trouvé quelques anciens, mais je me demande s’il y en a de nouveaux en développement, dans le style de ces modèles OCR
On pourrait aussi l’essayer directement pour cet usage et voir ce que ça donne
La vidéo sur la page liée n’était pas ce à quoi je m’attendais
Je pensais que Mistral était une entreprise européenne d’IA, donc j’ai été surpris de voir que la vidéo avait été tournée à San Francisco et que les trois personnes à l’écran n’avaient pas l’air européennes
C’est très bien d’être une organisation globale, mais je m’attendais à un bureau parisien et à des accents européens
- Malheureusement, les clients européens sont des clients avec lesquels il est difficile de gagner de l’argent
  Ils posent beaucoup de questions et ouvrent très peu leur portefeuille, alors que les Américains sont différents
- Toute entreprise tech européenne d’une certaine taille a au minimum un bureau sur la côte ouest américaine, ne serait-ce que pour le commercial
  Il y a probablement aussi de l’ingénierie commerciale
  Avec 8 à 10 heures de décalage horaire, c’est en pratique impossible à éviter
  Une entreprise où j’ai travaillé avait à la place un bureau à Vancouver, dans le même fuseau horaire
- Blackmagic Design, c’est un peu pareil
  Bien que l’entreprise soit majoritairement basée en Australie, l’ordre de la liste des bureaux sur https://www.blackmagicdesign.com/company/offices et la page entreprise lui donnent l’air d’une société américaine
- Si je ne me trompe pas, la plupart des fondateurs ont commencé leur carrière dans des entreprises américaines comme Meta, et les principaux investisseurs sont aussi des VC américains
  De ce point de vue, ils tirent intelligemment parti des deux mondes : les financements américains et les talents européens
- Il y a même un drapeau américain bien visible en arrière-plan
Je serais curieux de voir où ce modèle se classerait par rapport à https://github.com/baidu/Unlimited-OCR
- Oui, justement, il vient d’être annoncé : https://x.com/BaiduAI_News/status/2069322806748410291
4 dollars pour 1 000 pages, c’est peu cher, mais comme toutes les versions précédentes affichaient des choses du genre « 98 % de précision sur 4 PDF de benchmark internes » alors qu’en pratique elles étaient inférieures à presque toutes les alternatives du marché, ça ne donne pas très envie de refaire des benchmarks
Cette fois encore, ils mettent en avant des chiffres issus de benchmarks internes en disant qu’OlmOCRBench et OmniDocBench ont des « limites connues »
https://getomni.ai/blog/benchmarking-open-source-models-for-ocr
- Même conclusion ici, mais après avoir fait tourner moi-même quelques échantillons, j’ai quand même constaté une amélioration réelle depuis la version de décembre 2025
Tous les laboratoires d’IA devraient vraiment arrêter d’utiliser des axes Y tronqués dans leurs histogrammes de benchmark
https://mistral.ai/_astro/cm-engish_ZhlvoT.webp?dpl=6a3a94bd1f38530b2974c539
Je l’ai testé en malayalam : une écriture ordinaire était reconnue correctement, mais un style un peu différent a été détecté comme du kannada
Je peux fournir des échantillons si besoin, et Sarvam a traité le même exemple avec 99 % de précision, en ne laissant qu’une seule erreur de texte
- Je serais curieux d’avoir des retours sur Sarvam en dehors des langues indiennes
  Par exemple sur de l’Indian English, sur des documents mêlant des expressions indiennes écrites en alphabet latin, ou sur des documents avec des mises en page complexes comme des images et des tableaux
  Je m’intéresse à ces services indiens, mais leurs tarifs me paraissent un peu élevés de prime abord, ce qui me fait hésiter
  Cela dit, il est possible que je me trompe
Par rapport à l’ancien modèle OCR v3 de décembre, presque aucune différence n’est expliquée en dehors des boîtes englobantes, et le prix a doublé : https://mistral.ai/news/mistral-ocr-3/
À l’époque, ils utilisaient d’autres benchmarks
« Remarque sur les usages hors périmètre. OCR 4 est un modèle de compréhension de documents, pas un décideur. Il n’est pas destiné au diagnostic médical, au conseil ou jugement juridique, aux décisions financières à haut risque, aux systèmes critiques pour la sécurité, au traitement en temps réel/sensible à la latence, ni aux entrées non documentaires (audio brut, vidéo, etc.). »
J’attends déjà avec impatience le manager « innovant » qui proposera à la prochaine réunion : « D’accord, mais si on l’utilisait pour des décisions financières à haut risque à partir d’entrées non documentaires comme des photos prises au téléphone ? »
Je parie que d’ici la semaine prochaine, quelqu’un postera cette « idée » en commentaire sur HN
- Je ne vois vraiment pas pourquoi on ferait ça
  Il existe des dizaines de modèles plus performants, et ça ne donnerait que des résultats médiocres en comparaison
  Ce n’est pas un modèle qui répond à des questions, c’est fait pour la conversion de texte
  On dirait juste une tentative forcée de prendre un angle anti-IA
- Toutes les entreprises d’IA créent des modèles spécialisés très forts sur une tâche précise
  Mistral l’affiche simplement plus honnêtement, probablement parce qu’ils n’ont ni besoin ni envie d’impressionner le public avec un outil utilisateur généraliste (chat) qui donne l’air d’être expert en tout
  En pratique, ces outils sont eux aussi assez souvent un assemblage de plusieurs modèles spécialisés
  Ce qu’on veut ici peut se faire avec quelques scripts Python
  Avec Voxtral, on convertit le prompt vocal en texte, puis on l’envoie à Mistral Large 3 avec un prompt système supplémentaire pour générer un prompt d’OCR et un chemin de fichier, ensuite une boucle retrouve le fichier, l’envoie à OCR 3, puis repasse le résultat à Mistral Large 3 pour l’interpréter et le transformer en décision
  Ce genre de montage est courant ; il est plutôt rare qu’un seul modèle fasse absolument tout
- « J’ai confié des décisions financières importantes à un logiciel d’OCR, vous n’allez pas croire ce qui s’est passé ensuite »
J’ai récemment essayé de faire de l’OCR avec Opus 4.8
À strictement parler, ce n’était pas le bon outil, mais je n’avais besoin que d’extraire la date sur des reçus
Il s’est trompé sur environ 20 % des dates tout en les évaluant toutes avec une « confiance élevée »
J’aurais probablement dû utiliser un modèle spécialisé en OCR
- Extraire la date d’un reçu, ça ne fait pas déjà presque 30 ans que c’est un problème globalement résolu ?
  Même les outils d’OCR shareware fournis autrefois avec les scanners noir et blanc devaient sans doute faire mieux que 20 % d’erreurs
- Je ne sais pas pour Opus, mais pour le produit OCR inclus dans l’abonnement Gemini, on dirait que ce n’est pas le modèle lui-même qui s’en charge
  Ça ressemble à un outil OCR séparé et ancien, et les résultats aux tests étaient mauvais
  En revanche, dans l’API Gemini, le modèle faisait lui-même l’OCR et la précision était bien meilleure
- Opus fait très bien l’OCR
  Bien mieux que les petits modèles vision-langage de 1 à 4B
  Si Opus a échoué, il y a de fortes chances que la plupart de ces petits modèles échouent aussi
- J’ai du mal à croire cette histoire
  J’ai récemment scanné des centaines de PDF avec Opus 4.8, dont certains avec une écriture manuscrite épouvantable, et à part un document que même moi je n’arrivais pas à lire, j’ai eu 100 % de réussite

Sortie de Mistral OCR 4

Représentation documentaire structurée renvoyée par OCR 4

Formats, langues et mode de déploiement

Tarification et modes d’utilisation

Résultats d’évaluation et limites des benchmarks

Performances multilingues

Cas d’usage recommandés et périmètre d’exclusion

Comment choisir entre l’API OCR 4 et Document AI

Canaux de disponibilité et prise en main

À lire aussi

1 commentaires

Commentaires Hacker News