2 points par GN⁺ 2025-12-20 | 1 commentaires | Partager sur WhatsApp
  • Modèle OCR de nouvelle génération qui améliore à la fois la précision et l’efficacité du traitement documentaire, avec de hautes performances de reconnaissance sur divers types de documents
  • Il affiche une amélioration globale des performances de 74 % par rapport à la version précédente, avec d’excellents résultats sur l’écriture manuscrite, les formulaires, les tableaux complexes et les documents numérisés
  • La reconstruction de tableaux basée sur HTML et la prise en charge de la sortie Markdown permettent de préserver aussi les informations structurelles des documents
  • 2 dollars pour 1 000 pages, avec 50 % de réduction pour le traitement en masse, assurant une bonne efficacité coût
  • Technologie OCR exploitable aussi bien pour les pipelines documentaires d’entreprise à grande échelle que pour les workflows documentaires interactifs, et qui s’impose comme une infrastructure clé pour l’exploitation des données fondée sur l’IA générative

Principales performances et caractéristiques

  • Mistral OCR 3 réalise avec une grande précision l’extraction de texte et d’images intégrées dans divers documents
    • Il prend en charge la sortie au format Markdown et la reconstruction de tableaux en HTML, ce qui permet de reconnaître non seulement le contenu, mais aussi la structure des documents
    • La taille du modèle est réduite, ce qui lui permet d’être proposé à un coût inférieur à celui des solutions concurrentes : 2 dollars pour 1 000 pages, ou 1 dollar via la Batch API
  • Il est possible d’intégrer le modèle mistral-ocr-2512 via API, ou de convertir des PDF et des images en texte ou en JSON structuré via l’interface Document AI Playground

Amélioration des performances et benchmarks

  • Dans les benchmarks internes, il a enregistré un taux de victoire de 74 % par rapport à Mistral OCR 2
    • Les tests ont été réalisés à partir de cas d’usage métier réels de clients, et la précision a été évaluée avec la fuzzy-match metric
  • Il atteint une précision supérieure à celle des solutions de traitement documentaire pour l’entreprise et des OCR fondés sur l’IA
Publicité

Principaux domaines d’amélioration

  • Reconnaissance de l’écriture manuscrite : interprétation précise de l’écriture cursive, des annotations mixtes et du texte manuscrit sur des formulaires imprimés
  • Traitement des formulaires : meilleure reconnaissance des cases, libellés, saisies manuscrites et mises en page complexes
  • Documents numérisés et complexes : forte résistance aux artefacts de compression, aux déformations, à la basse résolution et au bruit de fond
  • Structures de tableaux complexes : reproduction complète des tableaux comprenant en-têtes, cellules fusionnées et hiérarchies multi-lignes et multi-colonnes avec des balises HTML (colspan/rowspan)
  • Amélioration globale des performances par rapport à Mistral OCR 2 sur toutes les langues et tous les formats documentaires

Cas d’usage et domaines d’application

  • Adapté aussi bien aux pipelines documentaires d’entreprise à grande échelle qu’aux workflows documentaires interactifs
    • Prend en charge notamment l’extraction de texte et d’images suivie de la conversion en Markdown, le parsing automatique de formulaires et de factures, la création de pipelines de compréhension documentaire, ainsi que la numérisation de documents manuscrits et historiques
  • Les premiers clients l’utilisent déjà pour convertir des factures en champs structurés, numériser des archives d’entreprise, extraire le texte de rapports techniques et scientifiques, et améliorer la recherche en entreprise
  • Tim Law, d’IDC, a déclaré que « l’OCR est une technologie de base pour l’IA générative et l’IA agentique, et que la capacité d’extraction de texte à haute précision et à faible coût détermine la compétitivité dans l’exploitation des données »

Approche et compatibilité

  • Disponible immédiatement via API ou via l’interface Document AI Playground
  • Entièrement compatible avec Mistral OCR 2, ce qui permet une mise à niveau facile dans les systèmes existants
  • La documentation détaillée est disponible sur mistral.ai/docs

1 commentaires

 
GN⁺ 2025-12-20
Commentaires sur Hacker News
  • En voyant cette vidéo sur Twitter, je me suis demandé pourquoi Mistral ne se compare pas aux modèles SoTA les plus récents
    Ce serait bien de le comparer à des modèles comme Chandra, dots.ocr, olmOCR, MinerU, Monkey OCR ou PaddleOCR

    • Pour avoir beaucoup travaillé sur l’extraction de documents, je trouve le ton du tweet un peu agaçant, mais sur le fond il a raison
      Mistral se compare à des services classiques de computer vision, et non à des modèles basés sur des VLM
      Les premiers comprennent mieux les documents, tandis que les seconds fournissent des bounding boxes précises
      Les modes d’échec sont aussi différents — un VLM peut mal lire une phrase entière, alors qu’un modèle de vision fera plutôt des fautes au niveau d’un mot
    • J’ai cliqué sur le lien, et j’ai eu l’impression que l’ambiance sur Twitter était devenue beaucoup plus étrange qu’avant
    • J’aimerais aussi voir une comparaison avec Qwen 3 VL 235B-A22B. Dans mon expérience, il était bien meilleur que MinerU
  • Ces 3 derniers mois, énormément de modèles OCR open source sont sortis
    En particulier, des modèles de moins de 1B de paramètres tournent très bien même sur des appareils edge
    J’aurais aimé une comparaison avec paddleOCR-VL, olmOCR-2, chandra ou dots.ocr
    C’est dommage qu’il n’y ait quasiment pas de leaderboards ou d’arènes liés à l’OCR ou à la CV

    • Il y a environ un mois, un projet appelé ocrarena.ai avait été publié
      Le principe est de faire s’affronter les modèles comme sur llmarena, mais Mistral n’y a pas encore été mis à jour
      Pour l’instant, Gemini est dans le haut du classement
    • L’avantage de MistralOCR, c’est sa politique tarifaire simple — 1 $ pour 1 000 pages, avec une API hébergée côté serveur
      Les autres OCR sont facturés au token, donc il est difficile d’estimer le coût réel
      Par exemple, Gemini 3.0 flash semble avoir un prix similaire en apparence, mais au niveau réel par token, il revient environ 3 fois plus cher
    • J’ai essayé d’installer paddleOCR, mais j’ai abandonné après avoir tenté d’installer 12 Go de dépendances PyTorch à cause de conflits de version
      J’ai donné les droits root à Claude pour qu’il l’installe à ma place, et il avait l’air de bien plus s’amuser que moi
      J’ai eu une expérience similaire lors de l’installation de open web UI, et j’ai fini par coder moi-même uniquement la fonction nécessaire en 100 lignes de HTML
      J’aimerais que l’OCR puisse aussi se faire aussi simplement
    • codesota.com/ocr mérite aussi d’être consulté
  • On dit que Mistral OCR 3 convient aux pipelines d’entreprise à grande échelle, mais avec une précision de 79 %, j’ai du mal à lui faire confiance
    Dans mon travail sur des revues scientifiques, des erreurs de reconnaissance comme 2.9+0.5 au lieu de 29+0.5 sont critiques
    Au final, une validation humaine est nécessaire à chaque étape

    • Dans ce genre de cas, datalab.to était plutôt bon
    • 79 % semble être un taux de victoire, pas un taux de précision
  • Je travaille sur un projet consistant à convertir un dictionnaire shipibo (langue autochtone du Pérou)-espagnol en dictionnaire shipibo-anglais
    La qualité du scan PDF n’est pas bonne, et l’OCR échoue souvent à cause de la mise en page en deux colonnes et des en-têtes/pieds de page
    C’est complexe, car il faut séparer les exemples en shipibo des définitions en espagnol pour ne traduire qu’en anglais
    À chaque nouvelle annonce sur les OCR/LLM, j’essaie, et je suis déçu à chaque fois

    • Je me demande si cela intéresse quelqu’un qui étudie la tradition de l’ayahuasca
      Dans la culture shipibo, ce n’étaient pas les gens ordinaires mais les maestra qui prenaient de l’ayahuasca pour diagnostiquer les maladies
      Elles suivaient une dieta propre à chaque plante, avec des restrictions sur l’usage du savon, les relations sexuelles, la consommation de sel, etc.
      Traditionnellement, cela pouvait durer plus d’un an, même si aujourd’hui c’est souvent réduit à quelques semaines
      J’ai trouvé impressionnante cette étude aussi approfondie de la médecine par les plantes
  • J’essaie de convertir un manuel de mathématiques en markdown avec des formules LaTeX, mais je n’ai pas encore trouvé de modèle OCR satisfaisant
    Je vais le tester directement dans le OCR playground de Mistral

    • J’ai traité des milliers de documents avec le modèle Gemini Pro 3 vision, et jusqu’ici il a été de loin le plus précis de tous les OCR que j’ai utilisés
      Les formules aussi sont converties parfaitement en LaTeX
    • J’aimerais vraiment que tu partages les résultats
  • Je cherche une traduction intégrée dans l’image (in-place translation)
    Mistral OCR3 est centré sur l’extraction de données, donc cela ne correspond pas à mon usage
    Je voudrais traduire du texte de livres d’art étrangers et l’afficher directement sur l’image, mais les services payants existants échouent à cause de dispositions de texte non standard
    Pour l’instant, j’utilise Google Lens en pointant l’écran pour traduire, mais ce n’est pas pratique
    Le Lens intégré à Chrome demande aussi une sélection manuelle, donc ce n’est pas totalement automatique
    Est-ce que quelqu’un connaît des avancées dans ce domaine ?

    • Si le payant ne te dérange pas, DEEPL ou la fonction de traduction de documents de Word sont plutôt utilisables
  • J’ai l’impression que Mistral ne fait que poursuivre les fonctions périphériques de l’IA en ce moment
    Il semble distancé par OAI, Google et Anthropic, et les investissements au niveau de l’UE paraissent insuffisants

    • Justement, les fonctions pratiques comme le traitement de formulaires sont ce dont les gens ont vraiment besoin
      C’est bien plus utile que de générer des mèmes
    • Suivre les leaders à l’identique est risqué
      Comme le modèle économique n’est pas encore établi, Mistral a raison de se concentrer sur la qualité de ses modèles de base
      L’objectif réaliste est de garder les talents en Europe et de produire de bons modèles
    • L’UE « investit » beaucoup dans Mistral — la moitié via la fiscalité, l’autre via des discussions réglementaires
    • Les régulations de l’UE freinent tellement la situation que l’entreprise finira probablement par être rachetée par une société américaine
    • Malgré tout, je pense que c’est mieux que de copier exactement ce que font les autres
  • J’ai vu des avis selon lesquels Mistral serait moins performant que plusieurs OCR open source (Paddle, MinerU, MonkeyOCR, etc.)
    Voir codesota.com/ocr

  • Je teste Mistral comme alternative à MathPix
    Ce script Python est un prototype qui sniffe sous Windows puis envoie l’image du presse-papiers à Mistral, avec collage automatique du résultat Markdown

  • Le plus gros problème de Mistral, c’est l’absence de réponse aux demandes clients
    Se cacher derrière « contactez-nous pour les tarifs » rend la chose inutile, même si le produit est meilleur que l’état de l’art

    • Moi aussi, je déteste au plus haut point les échanges en face à face avec un commercial
      Je préfère encore choisir un service plus cher et moins performant s’il m’évite ce processus