Apprendre à lire et à écrire pour revenir aux notes manuscrites
(research.google)Retour aux notes manuscrites grâce à l’apprentissage de la lecture et de l’écriture manuscrites
-
Introduction
- Les ingénieurs logiciels de Google Research, Blagoj Mitrevski et Andrii Maksai, présentent un modèle qui convertit des photos d’écriture manuscrite en format numérique.
- Ce modèle peut reproduire les traits de stylo sans équipement spécialisé.
- Les notes numériques ont l’avantage d’être durables, modifiables et faciles à indexer, mais elles diffèrent de l’écriture manuscrite traditionnelle.
- Pour réduire cet écart, une technique de « déréndu » est nécessaire afin de convertir l’écriture manuscrite en encre numérique.
-
Avantages de l’encre numérique
- Même les utilisateurs qui préfèrent l’écriture manuscrite traditionnelle peuvent accéder à leurs notes au format numérique.
- Au-delà de l’OCR, il est possible de générer des documents librement modifiables tout en conservant le style d’écriture manuscrite.
- L’intégration et l’organisation avec du contenu numérique deviennent plus simples.
-
InkSight : conversion de l’écriture manuscrite de l’offline vers l’online
- Proposition d’une méthode pour extraire les traits à partir de photos d’écriture manuscrite sans équipement spécialisé.
- Sans s’appuyer sur des structures géométriques traditionnelles, elle apprend à « lire » et à « écrire » pour offrir des performances robustes dans des situations variées.
-
Aperçu
- L’objectif est de capturer les détails de trajectoire au niveau des traits de l’écriture manuscrite.
- Les traits obtenus peuvent être enregistrés dans l’application de prise de notes choisie par l’utilisateur.
-
Défis
- Données supervisées limitées : obtenir des données appariées image/encre numérique est coûteux et prend du temps.
- Passage à l’échelle pour les grandes images : il faut traiter efficacement des images d’entrée présentant des résolutions variées et des volumes de contenu différents.
-
Méthodologie
- En apprenant à lire et à écrire, le système généralise la tâche de déréndu à partir d’images de styles variés.
- Sans dépendre de structures géométriques, il extrait précisément les éléments textuels et génère une représentation vectorielle proche de la manière dont les humains écrivent.
-
Workflow du système
- Le système utilise l’OCR pour extraire des boîtes englobantes au niveau des mots, puis effectue le déréndu de chaque mot individuellement.
- L’augmentation de données réduit l’écart de domaine entre les images synthétiques et les photos réelles.
-
Modèle vision-langage
- Un mélange d’entraînement comprenant cinq types de tâches est créé.
- Chaque tâche est distinguée pendant l’entraînement et l’inférence à l’aide d’un texte d’entrée spécifique à la tâche.
-
Résultats
- Un jeu de données d’évaluation a été collecté pour mesurer les performances du modèle, et trois variantes du modèle ont été entraînées.
- Les évaluations automatiques et humaines montrent que la sortie du modèle ressemble à l’image d’entrée ainsi qu’à l’encre numérique produite par des humains.
-
Conclusion
- Une première approche de conversion de photos d’écriture manuscrite en encre numérique est présentée.
- La méthode proposée peut être construite à partir de briques standard, sans modélisation complexe.
Résumé de GN⁺
- La technologie de conversion de l’écriture manuscrite en format numérique combine les avantages de l’écriture traditionnelle et des notes numériques pour offrir une meilleure expérience aux utilisateurs.
- Comme cette technologie peut fournir des performances robustes dans des contextes variés sans équipement spécialisé, elle a de fortes chances d’être largement adoptée.
- Parmi les produits du secteur offrant des fonctions similaires, on trouve le stylet intelligent de Wacom et le smartpen de Livescribe.
1 commentaires
Avis Hacker News
L’idée d’une application capable de transformer une écriture manuscrite peu soignée en une graphie propre grâce à un système est intéressante
Il y avait des attentes autour du fait de réapprendre à écrire à la main, mais la recherche de Google aide surtout à améliorer les notes numériques
Intérêt pour les technologies récentes de reconnaissance de l’écriture manuscrite à partir de photos
Il y a dix ans, j’avais essayé l’OCR en anglais avec tesseract, mais les performances n’étaient pas bonnes pour les langues non anglophones
Curiosité quant au fonctionnement possible sur des appareils à faible consommation
L’idée d’imiter l’écriture manuscrite humaine est intéressante
Question sur la possibilité que cette technologie soit utilisée pour produire de fausses signatures ou une fausse écriture manuscrite
Il s’agit d’un projet de recherche qui pourrait avoir un impact majeur dans l’éducation, avec les cahiers de notes numériques, ou dans la préservation de documents anciens
Recherche d’une bonne solution d’OCR pour l’écriture manuscrite
Présentation d’un modèle qui convertit des photos d’écriture manuscrite en format numérique