L’entrée basée sur les pixels est-elle meilleure que le texte ? La question soulevée par Karpathy à propos du papier DeepSeek-OCR

(twitter.com/karpathy)

3 points par GN⁺ 2025-10-24 | 1 commentaires | Partager sur WhatsApp

Le récent papier DeepSeek-OCR explore la possibilité pour de grands modèles de langage (LLM) d’être entraînés en recevant directement en entrée des pixels d’image plutôt que du texte
Cette approche propose de supprimer l’étape traditionnelle d’OCR (reconnaissance optique de caractères) et de transmettre au modèle les informations visuelles telles quelles
En mentionnant ce papier, Karpathy soulève la question de savoir si une entrée en pixels peut fournir un contexte plus riche que des tokens de texte
Cette idée rejoint l’orientation actuelle de l’IA multimodale et explore de manière expérimentale la possibilité pour les modèles de langage d’intérioriser des capacités de compréhension visuelle
Cette discussion est considérée comme une piste de recherche importante susceptible de redéfinir à l’avenir la structure d’entrée et le paradigme d’apprentissage des LLM

Concepts clés du papier DeepSeek-OCR

DeepSeek-OCR propose une architecture de grand modèle de langage qui, au lieu d’une entrée textuelle classique, traite directement les données de pixels d’images de documents
- Dans les systèmes OCR traditionnels, le texte est extrait de l’image avant d’être transmis au modèle de langage, mais ce processus entraîne une perte de forme des caractères, de mise en page et de contexte visuel
- Pour réduire cette perte, DeepSeek-OCR utilise directement comme entrée du modèle des informations visuelles au niveau du pixel
Le modèle est conçu pour comprendre simultanément différents éléments visuels dans l’image, comme le texte, les tableaux, les formules et les diagrammes
- Cela permet d’aller au-delà de la simple reconnaissance de texte, jusqu’à la compréhension de la structure du document et au raisonnement sémantique

La question posée par Karpathy

Dans son thread Twitter, Karpathy mentionne ce papier en posant la question : « Les pixels constituent-ils une meilleure entrée que le texte ? »
- Il souligne que l’approche actuelle, où les LLM sont entraînés uniquement sur des tokens de texte, peut entraîner une perte d’information
- Il indique notamment que si un modèle de langage peut apprendre directement le contexte visuel, une architecture d’apprentissage intégrée supprimant l’étape OCR devient envisageable
Karpathy estime que cette approche a le potentiel d’améliorer la capacité de généralisation du modèle et sa compréhension multimodale
- Il souligne toutefois aussi des limites pratiques : le coût de calcul élevé d’une entrée en pixels et la difficulté de constituer des jeux de données à grande échelle

Signification technique et impact potentiel

Une entrée basée sur les pixels présente l’avantage, par rapport à une entrée textuelle, d’avoir une densité d’information plus élevée et de préserver le contexte visuel
- Par exemple, dans les documents contenant des tableaux ou des formules, la conversion en texte fait perdre des informations structurelles, alors qu’une entrée en pixels les conserve telles quelles
En revanche, une entrée en pixels s’accompagne de problèmes tels que l’augmentation du nombre de paramètres du modèle, la hausse du coût d’entraînement et la baisse de la vitesse d’inférence
- C’est pourquoi, dans les applications réelles, une approche hybride texte + pixels est évoquée comme une alternative réaliste
Cette discussion est vue comme une exploration expérimentale visant à déterminer si les LLM peuvent intérioriser, au-delà de la simple compréhension du langage, des capacités de perception visuelle et spatiale

Implications industrielles

Dans les secteurs qui traitent des structures documentaires complexes, comme le traitement de documents, la finance, le droit ou la santé, l’approche de DeepSeek-OCR revêt une grande importance
- Par exemple, elle ouvre la possibilité de construire des systèmes d’IA capables de comprendre directement la disposition visuelle de contrats ou de factures numérisés
La discussion lancée par Karpathy pourrait déclencher une remise en question fondamentale des formats d’entrée de l’IA et influencer à terme l’orientation de la conception des LLM
Les LLM fondés sur une entrée en pixels pourraient mener à une substitution ou une intégration des technologies OCR et sont considérés comme un nouveau tournant potentiel pour la recherche en IA multimodale

1 commentaires

GN⁺ 2025-10-24

Avis Hacker News

Ce n’est pas un pixel mais un percel. Un pixel est un point d’image, alors qu’un percel est une unité d’information perceptive qui peut inclure du son, des sensations, voire des tokens de pensée
Chez l’humain, on perçoit des percels combinant plusieurs sens, et les réseaux de neurones, en particulier les LLM, ne traitent pas les percels isolément mais dans le contexte des percels voisins
- J’avais écrit une proposition de financement de recherche à partir de cette idée. Les chercheurs en ML l’ont sévèrement critiquée pour son manque de côté pratique, mais les neuroscientifiques l’ont fortement soutenue
  C’est dommage qu’il soit si difficile d’obtenir des financements pour des recherches interdisciplinaires simplement parce qu’elles ne rentrent pas dans les cadres existants
- J’ai trouvé ce concept tellement intéressant que j’ai cherché des ressources dessus, mais je n’ai rien trouvé. Je me demande si c’est un néologisme que vous avez inventé vous-même, ou s’il existe un article ou des travaux de recherche de référence
- Au final, je me dis que c’est assez proche de la notion d’espace latent, dans le sens où il s’agit d’une structure regroupant des vecteurs liés entre eux
- Pour représenter un percel sous forme de vecteur, il faudrait sans doute le projeter dans un espace latent en séparant les dimensions par modalité perceptive (vision, audition, etc.)
- C’est une blague, mais j’ai presque envie d’appeler ça un toxel plutôt qu’un percel
« Kill the tokenizer » est une proposition radicale, mais fondamentale
La tokenisation n’est qu’un hack provisoire pour quantifier le langage, et elle en déforme la nature profonde
L’idée que des pixels puissent constituer une unité de représentation plus puissante paraît étrange, mais il faut bien que quelqu’un tente une approche nouvelle
- Quand je lis, je traite le texte à la fois visuellement et auditivement
  Du coup, une entrée fondée sur la vision me paraît être une évolution naturelle
  Si, au lieu de rendre le texte puis de le lire avec un OCR, on encodait des échantillons vocaux via TTS, ce serait peut-être plus efficace que des pixels. Bon, cela dépendrait bien sûr de la résolution ou du taux d’échantillonnage
- Le Byte Latent Transformer de Meta a tenté de remplacer le tokenizer, mais n’a finalement pas vraiment attiré l’attention
- Dans ce cas, on peut se demander avec quoi il faudrait décoder au moment de la génération. Les tokens portent plus qu’une simple représentation visuelle, donc générer seulement une image de texte ne suffit pas
- Le texte a une densité d’information très élevée. Il reste donc efficace comme entrée
- Je ne comprends pas bien non plus. En quoi l’image du texte serait-elle meilleure que le texte lui-même ? On dirait presque qu’on propose plutôt de photographier l’écran entier et d’entraîner aussi le modèle sur la caméra
Parmi les travaux connexes intéressants, il existe un article de Lex Flagel et d’autres chercheurs qui convertit des séquences d’ADN en images pour les entraîner avec un CNN
Résultat : le CNN a pu reproduire les mesures génétiques qu’on obtenait auparavant via des analyses textuelles classiques
Lien vers l’article
Le cœur des discussions récentes est la prise de conscience des abstractions avec perte que nous utilisons pour représenter le langage aux machines
La tokenisation n’en est qu’un exemple ; les pixels ou les signaux vocaux sont eux aussi d’autres approximations
La vraie valeur de ce type d’expériences est de tester les hypothèses de conception des architectures actuelles
Les approches qui apprennent à aligner plusieurs modalités peuvent permettre de découvrir de meilleures structures latentes ou de meilleurs modes d’entraînement, ce qui pourrait ensuite améliorer les encodeurs de texte existants
En particulier pour les langues où les frontières entre les mots sont ambiguës, des méthodes d’encodage alternatives peuvent être d’une grande aide
L’idée avancée dans l’article, « compression de l’information → fenêtre de contexte plus courte → gain d’efficacité », est intéressante,
mais je me demande si des variations de taille de police, de fonte ou d’espacement ne pourraient pas au contraire détériorer le taux de compression
Je suis d’accord avec Karpathy.
L’un des avantages des tokens textuels, c’est qu’ils apprennent une compréhension intrinsèque du mode de saisie, par exemple le clavier QWERTY
Par exemple, “Hello” et “Hwllo” sont perçus comme proches sur le plan sémantique grâce à la proximité des touches sur le clavier
- Si une IA pouvait lire via une entrée fondée sur les pixels, des variantes comme “HWLLO” ou “H3LL0” pourraient aussi être reconnues comme proches grâce à leur similarité visuelle
  Cela demanderait davantage d’entraînement, mais pourrait au final produire une capacité de reconnaissance plus généralisée
- Je suis sensible à l’idée de typo learning. J’en parle aussi dans ma vidéo
  On peut aussi générer des fautes de frappe dans les images pour entraîner le modèle, donc je ne pense pas que ce soit un gros problème
Quand je pense à moi-même, j’entends dans ma tête un flux de mots
Ce ne sont ni des pages ni des images, mais une suite de mots sous forme de sons
La tokenisation actuelle est peut-être inefficace. Le langage possède déjà une structure de compression de haut niveau,
mais il est possible qu’il existe de meilleures formes de représentation dans l’espace latent
- L’industrie connaît bien les limites des tokenizers. Mais mettre réellement en œuvre une méthode scalable pour les remplacer est extrêmement difficile
- Les modèles d’image utilisent des tokens de plus grande taille. On pourrait aussi créer, pour le texte, un grand dictionnaire de tokens fondé sur des n-grammes,
  mais les architectures de LLM actuelles sont inefficaces pour gérer des distributions de sortie trop grandes
J’ai encore l’impression que cette approche est loin d’être pratique.
Chaque fois que ChatGPT propose « on essaie de le visualiser en image ? », le résultat est rempli d’hallucinations
- Mais la génération d’images et l’entrée d’images sont deux problèmes totalement différents
  Ici, il s’agit de convertir du texte en image pour l’envoyer à un LLM, pas de générer une image
Parmi les discussions récentes liées au sujet, on peut citer
le cas d’usage de DeepSeek-OCR sur Nvidia Spark et
le projet DeepSeek OCR.
Les deux ont été activement discutés en octobre 2025.

L’entrée basée sur les pixels est-elle meilleure que le texte ? La question soulevée par Karpathy à propos du papier DeepSeek-OCR

Concepts clés du papier DeepSeek-OCR

La question posée par Karpathy

Signification technique et impact potentiel

Implications industrielles

À lire aussi

1 commentaires

Avis Hacker News