1 points par GN⁺ 2025-02-10 | 1 commentaires | Partager sur WhatsApp
  • Une expérimentation qui reconnaît l’écriture manuscrite sur la reMarkable 2, réagit en fonction de gestes ou du contenu affiché à l’écran, puis réécrit sur l’écran
    • Un projet qui explore l’interaction entre l’écriture manuscrite et l’écran

Configuration / installation

  • Il faut définir des variables d’environnement comme OPENAI_API_KEY.
  • Il faut installer et exécuter le binaire sur la reMarkable.

Utilisation

  • Il faut démarrer ghostwriter sur la reMarkable.
  • On peut dessiner sur l’écran et toucher le coin supérieur droit pour activer les fonctions d’assistance.
  • Pendant le traitement, des points sont tracés, et l’on peut voir des réponses tapées ou dessinées.

Statut / journal

  • 2024-10-06 : preuve de concept de base terminée. La fonction de redessin à l’écran ne fonctionne pas très bien.
  • 2024-10-07 : implémentation des gestes de base et de l’indicateur d’état.
  • 2024-10-10 : début de la configuration du clavier virtuel.
  • 2024-10-20 : ajout de la sortie texte et d’autres modes.
  • 2024-10-21 : build de release du binaire terminé.
  • 2024-10-23 : refactorisation du code et projet de tester de nouveaux modèles Anthropic.
  • 2024-11-02 : transition vers la fourniture d’outils.
  • 2024-11-07 : ajout de Claude/Anthropic.
  • 2024-11-22 : début de l’esquisse d’un système d’évaluation.
  • 2024-12-02 : ajout d’une étape de segmentation d’image de base.
  • 2024-12-15 : intégration du moteur.
  • 2024-12-18 : résolution des problèmes liés à la mise à niveau du système.
  • 2024-12-19 : essai du mode VLM sur réseau local.
  • 2024-12-22 : début de la construction du système d’évaluation.
  • 2024-12-25 : simplification et extension de la CLI.
  • 2024-12-28 : amélioration de l’utilisabilité.

Idées

  • Déclencher des requêtes par geste ou selon le contenu.
  • Envoyer des captures d’écran à un modèle de vision et afficher le résultat à l’écran.
  • Possibilité d’envoyer des événements clavier.
  • Construire un système d’évaluation de base.
  • Développer une bibliothèque de prompts.
  • Automatiser la configuration initiale.
  • Ajouter une fonction de génération de diagrammes.
  • Ajouter une fonction de consultation et de transmission d’informations externes.
  • Implémenter un mode conversation.
  • Tenter l’usage d’un VLM local sur le réseau.

Références

  • Utilisation de ressources issues de Awesome reMarkable.
  • Application des techniques de capture d’écran de reSnap.
  • Inspiration tirée de l’affichage à l’écran de rmkit lamp.
  • Conversion de SVG en png avec resvg.
  • Création d’un périphérique d’entrée clavier avec rM-input-devices.
  • Découverte dans reMarkableAI du processus OCR→OpenAI→PDF→Device.
  • rMAI utilise replicate comme service d’API de modèles dans une application distincte.
  • Crazy Cow est un outil qui convertit du texte en traits de stylet.

1 commentaires

 
GN⁺ 2025-02-10
Avis Hacker News
  • Je suis l’auteur du projet. Le projet est toujours en cours, et la principale observation concerne les limites de la perception spatiale des modèles visuels.

  • Vraiment cool. J’aime voir des gens bidouiller des apps pour la tablette reMarkable

  • J’aimerais que la tablette reMarkable soit moins verrouillée

    • C’est l’un de mes matériels préférés, et j’aimerais qu’il y ait plus d’apps
  • Génial

    • J’avais envie d’essayer de réaliser ça depuis des mois. Beau travail
  • Vraiment cool. Je vais essayer ce week-end

    • Je jouais avec l’idée d’envoyer des PDF par e-mail, de les transmettre au LLM et de créer automatiquement des tâches quand j’écris des choses à faire
    • Ce projet ouvre une meilleure voie pour atteindre cet objectif en temps réel
  • Pour les lecteurs de documents PDF, je me demande si la taille de 11 pouces du reMarkable est suffisante

    • J’ai une version Sony DPT de 2e génération en 13 pouces, et l’expérience de lecture est parfaite
    • Mais ce genre de projet continue de me pousser vers les produits reMarkable
  • J’adore ce projet. Il existe des modèles de diffusion vectorielle ; si le modèle décide de dessiner quelque chose, que dirais-tu de sous-traiter cela via un appel d’outil ?

    • On pourrait alors spécifier une plage de coordonnées et un prompt
  • Ce cas d’usage qui combine saisie manuscrite et LLM est excellent

    • Je me demande à quel point il gère bien une écriture brouillonne, et si un affinage sur des notes personnelles pourrait améliorer la reconnaissance au fil du temps
  • Je possède une tablette boox (une tablette Android complète avec écran eink), et ce genre de chose serait parfait

    • Je me demande si, dans 5 ans, le matériel mobile pourra prendre cela en charge localement
  • Qu’en serait-il de ce projet sur un lecteur ebook Onyx Boox basé sur Android ?

    • Est-ce que ce serait possible ?