2 points par GN⁺ 2024-10-29 | 1 commentaires | Partager sur WhatsApp

Retour aux notes manuscrites grâce à l’apprentissage de la lecture et de l’écriture manuscrites

  • Introduction

    • Les ingénieurs logiciels de Google Research, Blagoj Mitrevski et Andrii Maksai, présentent un modèle qui convertit des photos d’écriture manuscrite en format numérique.
    • Ce modèle peut reproduire les traits de stylo sans équipement spécialisé.
    • Les notes numériques ont l’avantage d’être durables, modifiables et faciles à indexer, mais elles diffèrent de l’écriture manuscrite traditionnelle.
    • Pour réduire cet écart, une technique de « déréndu » est nécessaire afin de convertir l’écriture manuscrite en encre numérique.
  • Avantages de l’encre numérique

    • Même les utilisateurs qui préfèrent l’écriture manuscrite traditionnelle peuvent accéder à leurs notes au format numérique.
    • Au-delà de l’OCR, il est possible de générer des documents librement modifiables tout en conservant le style d’écriture manuscrite.
    • L’intégration et l’organisation avec du contenu numérique deviennent plus simples.
  • InkSight : conversion de l’écriture manuscrite de l’offline vers l’online

    • Proposition d’une méthode pour extraire les traits à partir de photos d’écriture manuscrite sans équipement spécialisé.
    • Sans s’appuyer sur des structures géométriques traditionnelles, elle apprend à « lire » et à « écrire » pour offrir des performances robustes dans des situations variées.
  • Aperçu

    • L’objectif est de capturer les détails de trajectoire au niveau des traits de l’écriture manuscrite.
    • Les traits obtenus peuvent être enregistrés dans l’application de prise de notes choisie par l’utilisateur.
  • Défis

    • Données supervisées limitées : obtenir des données appariées image/encre numérique est coûteux et prend du temps.
    • Passage à l’échelle pour les grandes images : il faut traiter efficacement des images d’entrée présentant des résolutions variées et des volumes de contenu différents.
  • Méthodologie

    • En apprenant à lire et à écrire, le système généralise la tâche de déréndu à partir d’images de styles variés.
    • Sans dépendre de structures géométriques, il extrait précisément les éléments textuels et génère une représentation vectorielle proche de la manière dont les humains écrivent.
  • Workflow du système

    • Le système utilise l’OCR pour extraire des boîtes englobantes au niveau des mots, puis effectue le déréndu de chaque mot individuellement.
    • L’augmentation de données réduit l’écart de domaine entre les images synthétiques et les photos réelles.
  • Modèle vision-langage

    • Un mélange d’entraînement comprenant cinq types de tâches est créé.
    • Chaque tâche est distinguée pendant l’entraînement et l’inférence à l’aide d’un texte d’entrée spécifique à la tâche.
  • Résultats

    • Un jeu de données d’évaluation a été collecté pour mesurer les performances du modèle, et trois variantes du modèle ont été entraînées.
    • Les évaluations automatiques et humaines montrent que la sortie du modèle ressemble à l’image d’entrée ainsi qu’à l’encre numérique produite par des humains.
  • Conclusion

    • Une première approche de conversion de photos d’écriture manuscrite en encre numérique est présentée.
    • La méthode proposée peut être construite à partir de briques standard, sans modélisation complexe.

Résumé de GN⁺

  • La technologie de conversion de l’écriture manuscrite en format numérique combine les avantages de l’écriture traditionnelle et des notes numériques pour offrir une meilleure expérience aux utilisateurs.
  • Comme cette technologie peut fournir des performances robustes dans des contextes variés sans équipement spécialisé, elle a de fortes chances d’être largement adoptée.
  • Parmi les produits du secteur offrant des fonctions similaires, on trouve le stylet intelligent de Wacom et le smartpen de Livescribe.

1 commentaires

 
GN⁺ 2024-10-29
Avis Hacker News
  • L’idée d’une application capable de transformer une écriture manuscrite peu soignée en une graphie propre grâce à un système est intéressante

    • Cela permettrait de convertir une écriture prise rapidement en cours en un texte plus net
  • Il y avait des attentes autour du fait de réapprendre à écrire à la main, mais la recherche de Google aide surtout à améliorer les notes numériques

    • Je préférerais améliorer mon écriture manuscrite sans dépendre de la technologie
  • Intérêt pour les technologies récentes de reconnaissance de l’écriture manuscrite à partir de photos

    • Je suis encore plus intéressé par la conversion de notes manuscrites en Markdown
  • Il y a dix ans, j’avais essayé l’OCR en anglais avec tesseract, mais les performances n’étaient pas bonnes pour les langues non anglophones

    • Ravi de voir des recherches sur l’OCR basé sur les transformers
  • Curiosité quant au fonctionnement possible sur des appareils à faible consommation

  • L’idée d’imiter l’écriture manuscrite humaine est intéressante

    • C’était justement un objectif à mettre en œuvre dans des modèles de machine learning
  • Question sur la possibilité que cette technologie soit utilisée pour produire de fausses signatures ou une fausse écriture manuscrite

  • Il s’agit d’un projet de recherche qui pourrait avoir un impact majeur dans l’éducation, avec les cahiers de notes numériques, ou dans la préservation de documents anciens

  • Recherche d’une bonne solution d’OCR pour l’écriture manuscrite

    • Les anciens modèles ne fonctionnaient que sur des PDF, et il faudrait une solution personnalisée hors ligne
  • Présentation d’un modèle qui convertit des photos d’écriture manuscrite en format numérique

    • Certains y voient aussi avec scepticisme une possible méthode pour Google de collecter des données