DeepSeek OCR
(github.com/deepseek-ai)Résumé en une ligne
Propose et valide une compression optique du contexte qui transforme des documents/journaux de conversation en images (tokens visuels) pour réduire fortement le contexte LLM (≈7–20×), puis les restaure fidèlement en texte (OCR). En combinant un nouvel encodeur visuel (DeepEncoder) et un décodeur MoE 3B, le système atteint des performances de parsing de documents de niveau SOTA avec peu de tokens visuels.
Définition du problème
• Le coût quadratique des LLM augmente à mesure que la longueur du contexte s’allonge.
• Si l’on rend le texte d’un document sous forme d’image, le nombre de tokens visuels est bien inférieur au nombre de tokens texte → si la reconstruction image→texte est suffisamment bonne, une compression très efficace devient possible.
• L’OCR constitue un bon terrain d’expérimentation, car il permet une cartographie naturelle compression/restauration entre vision et texte, ainsi qu’une évaluation quantitative.
Aperçu de la méthode
Architecture : DeepEncoder (encodeur) + DeepSeek-3B-MoE-A570M (décodeur)
• DeepEncoder (élément clé)
• Composé de deux étapes :
1. bloc de perception visuelle à base de window attention (famille SAM-base, ~80M) → faible mémoire active même en haute résolution
2. compression convolutionnelle 16× pour réduire fortement le nombre de tokens, puis
3. bloc de connaissance visuelle à base de global attention (CLIP-large, avec suppression du premier patch embedding)
• Prise en charge multi-résolution (modes) : Tiny (64 tokens, 512²), Small (100, 640²), Base (256, 1024²), Large (400,1280²) +
Gundam (n tuiles de 640² + vue globale 1024² → tokens = n×100+256),
Gundam-M (tuiles 1024² + global 1280²)
• Concept de tokens valides (valid) : seuls les tokens effectifs sont comptés, en excluant les zones vides issues du padding (défini par formule).
• Décodeur MoE : DeepSeek-3B-MoE (12 couches) est utilisé pour restaurer le texte source à partir des tokens visuels compressés produits par l’encodeur.
Moteur de données & entraînement
• OCR 1.0 (OCR traditionnel) :
• 30 millions de pages PDF issues d’Internet (environ 100 langues) :
• Coarse : extraction via fitz (pour l’entraînement à la reconnaissance optique de texte)
• Fine : 2 millions de pages en chinois et 2 millions en anglais, annotées finement avec OCR/layout avancé (boîtes + texte intercalé), plus 3 millions de pages de documents Word
• OCR de scènes naturelles : 10 millions d’échantillons chacun en chinois et en anglais (annotations PaddleOCR)
• OCR 2.0 (parsing d’images artificielles complexes) :
• Graphiques (pyecharts/matplotlib) : 10 millions d’images → annotées sous forme de tableaux HTML
• Formules chimiques : 5 millions de rendus RDKit à partir de SMILES PubChem
• Géométrie plane : génération de données selon l’approche Slow Perception (dictionnaire de segments, etc.)
• Vision générale : mélange de 100 millions d’échantillons LAION pour le préentraînement de l’encodeur
• Infrastructure d’entraînement : 20 nœuds (8×A100-40G chacun), parallélisme pipeline en 4 étapes (2 pour l’encodeur, 2 pour le décodeur), DP=40, batch global 640.
• Texte seul : 90B tok/jour, multimodal : 70B tok/jour
• Capacité de génération de données en production : 33 millions de pages par jour avec 20 nœuds
Résultats expérimentaux
-
Étude de compression optique du contexte — benchmark Fox (100 pages en anglais, 600–1300 tokens)
• Avec Small (100 tokens visuels), précision & ratio de compression (tokens texte/tokens visuels) :
• 600–700 : 98.5%, 6.7×
• 700–800 : 97.3%, 7.5×
• 800–900 : 96.8%, 8.5×
• 900–1000 : 96.8%, 9.7×
• 1000–1100 : 91.5%, 10.6×
• 1100–1200 : 89.8%, 11.3×
• 1200–1300 : 87.1%, 12.6ו Résumé : à 9–10× de compression, la précision dépasse 96 % ; à 10–12×, elle est d’environ 90 % ; autour de 20×, elle tombe à environ 60 %.
→ Autour de 10×, on se rapproche d’un quasi sans perte ; au-delà, les performances baissent progressivement sous l’effet de la complexité du layout et du flou lié à la basse résolution. -
Parsing de documents en conditions réelles (OmniDocBench) — distance d’édition (plus faible = meilleur)
• Dépasse GOT-OCR2.0 (256 tokens) avec seulement 100 tokens (640²)
• À 400 tokens (1280²), atteint le niveau du SOTA le plus récent
• En mode Gundam (<800 tokens), surpasse MinerU-2.0 (≈6 790 tokens)
→ Excellente efficacité en tokens (performances équivalentes ou supérieures avec moins de tokens visuels). -
Résultats qualitatifs (fonctionnalités)
• Deep parsing :
• graphique → tableau HTML,
• formule chimique → SMILES,
• figure géométrique → structure dictionnaire (segments/coordonnées/types, etc.)
• Possibilité de question-réponse de base aussi sur des images naturelles
• Multilingue : reconnaissance de PDF dans environ 100 langues (sortie layout ou sans layout contrôlée par prompt)
Portée
• Démontre que la compression via tokens visuels est une solution crédible au problème de coût des contextes LLM très longs.
• Propose une stratégie de memory decay où le contexte récent reste en haute résolution tandis que l’historique ancien est progressivement réduit (ratio de compression ↑) → une allocation des ressources proche de la courbe d’oubli humaine.
• Optimisation du budget de tokens : fournit des recommandations sur le nombre de tokens nécessaires selon la tâche et le type de document (pour les documents très denses comme les journaux, les modes Gundam/M sont recommandés).
Limites & travaux futurs
• À ce stade, il s’agit surtout d’une preuve de concept fondée sur l’OCR ; l’analyse des pertes dans un véritable pipeline numérique↔optique↔numérique demande des recherches supplémentaires.
• L’amélioration de la forte dégradation au-delà de 10× (layouts complexes, flou basse résolution) reste un chantier.
• Questions de cohérence entre formats et benchmarks (par ex. différences de format dans l’évaluation Fox pouvant sous-estimer les performances réelles).
Points clés
• DeepEncoder : window attention (faible activation) → compression conv 16× → global attention (CLIP)
• Équilibre entre mémoire/tokens économisés et performances grâce à la multi-résolution + tuiles + global (Gundam)
• ≈10× de compression pour ~96 % de précision de reconstruction → une piste concrète pour réduire fortement le coût du contexte
• OmniDocBench : approche ou dépasse le SOTA avec seulement 100–800 tokens visuels
• Utilité pratique couvrant graphiques, chimie, géométrie et multilingue
3 commentaires
Waouh, c’est impressionnant hahaha. Mais si on le restaure, est-ce que ce ne sont pas de toute façon exactement les mêmes tokens ? On ne peut économiser que les tokens en stockage, non ? Je ne suis pas très futé donc je ne comprends pas bien, snif. Quelqu’un pourrait m’expliquer de façon claire ?
L’idée de DeepSeek est vraiment bonne.
DeepSeek OCR - un modèle d’OCR ultra-efficace grâce à la compression du contexte visuel
Consultez aussi la version résumée par GN+ ainsi que les commentaires Hacker News.