2 points par GN⁺ 2026-01-17 | 1 commentaires | Partager sur WhatsApp
  • Handy est une application de bureau gratuite et open source de transcription voix-texte qui fonctionne entièrement hors ligne, avec une conception centrée sur la protection de la vie privée
  • Conçue sur Tauri (Rust + React/TypeScript), elle permet d’appuyer sur un raccourci, de parler, puis de voir la voix saisie directement dans un champ de texte
  • Elle prend en charge les modèles Whisper et Parakeet V3, et effectue la reconnaissance vocale en local via accélération GPU ou sur CPU
  • Elle fonctionne sur Windows, macOS et Linux, et a été développée avec une architecture privilégiant la facilité d’extension et de fork, afin d’encourager les contributions des développeurs
  • Outil de saisie vocale axé sur la confidentialité, il traite tout en local sans envoi vers le cloud, avec un fort potentiel en matière d’accessibilité et de personnalisation

Vue d’ensemble

  • Handy est une application de reconnaissance vocale gratuite, open source et extensible qui fonctionne entièrement hors ligne, sans connexion Internet
  • Elle repose sur le framework Tauri et combine un backend Rust avec un frontend React/TypeScript
  • L’utilisateur appuie sur un raccourci clavier pour parler, puis, en relâchant, le modèle Whisper ou Parakeet V3 convertit la voix en texte et le colle dans l’application active
  • Toutes les données vocales sont traitées en local, ce qui élimine le risque de fuite de données personnelles

La philosophie de Handy

  • Gratuit : les outils d’accessibilité doivent être utilisables par tout le monde
  • Open source : chacun peut étendre et améliorer les fonctionnalités
  • Respect de la vie privée : les données vocales ne sont pas envoyées vers le cloud
  • Simplicité : se concentrer sur un seul objectif, à savoir convertir la voix en texte
  • L’objectif n’est pas de créer l’application « la plus parfaite », mais celle qui est « la plus facile à forker »

Fonctionnement

  • L’utilisateur peut démarrer et arrêter l’enregistrement avec un raccourci clavier ou utiliser un mode push-to-talk
  • Silero VAD filtre les silences, puis les modèles Whisper ou Parakeet V3 convertissent la voix
    • Modèles Whisper : versions Small, Medium, Turbo et Large, avec prise en charge de l’accélération GPU
    • Parakeet V3 : optimisé CPU, avec détection automatique de la langue
  • Le texte converti est automatiquement inséré dans le champ de saisie de l’application utilisée
  • Compatible avec Windows, macOS et Linux

Architecture

  • Frontend : React + TypeScript + Tailwind CSS
  • Backend : basé sur Rust, chargé du traitement audio et de l’inférence de machine learning
  • Bibliothèques clés
    • whisper-rs : reconnaissance vocale locale avec les modèles Whisper
    • transcription-rs : reconnaissance CPU avec le modèle Parakeet
    • cpal : entrées/sorties audio
    • vad-rs : détection d’activité vocale
    • rdev : gestion des raccourcis globaux et des événements système
    • rubato : rééchantillonnage audio
  • Mode debug : accessible avec Cmd+Shift+D (macOS) ou Ctrl+Shift+D (Windows/Linux)

Problèmes connus et limitations

  • Crashs des modèles Whisper : des problèmes de plantage existent dans certains environnements Windows/Linux
  • Prise en charge limitée de Wayland : sur Linux avec Wayland, l’installation de wtype ou dotool est nécessaire
  • Outils de saisie de texte
    • X11 : xdotool
    • Wayland : wtype ou dotool
    • Si ces outils ne sont pas installés, enigo est utilisé à la place, avec une compatibilité limitée
  • Overlay Linux désactivé par défaut : pour éviter les conflits de focus, il est désactivé par défaut

Configuration système requise

  • Pour les modèles Whisper
    • macOS : Mac série M ou Intel Mac
    • Windows/Linux : GPU Intel, AMD, NVIDIA (Ubuntu 22.04/24.04 recommandé)
  • Pour le modèle Parakeet V3
    • CPU uniquement, Intel Skylake (6e génération) ou plus recommandé
    • Environ 5 fois plus rapide que le temps réel sur un matériel de milieu de gamme
    • Détection automatique de la langue incluse

Feuille de route de développement

  • Fonctionnalités en cours
    • Ajout de fichiers de logs de debug
    • Améliorations des raccourcis macOS (prise en charge de la touche Globe, réécriture de la gestion des raccourcis globaux)
    • Fonction d’analyse optionnelle : collecte anonyme de données d’usage, sur la base d’un consentement explicite
    • Refactorisation du système de configuration et amélioration des abstractions
    • Réorganisation de la structure des commandes Tauri et amélioration de la sûreté des types

Dépannage et installation manuelle des modèles

  • Dans les environnements à restrictions réseau, les modèles peuvent être téléchargés et installés manuellement
  • Créer un dossier models dans le répertoire de données de l’application, puis y placer les fichiers de modèle
    • Modèles Whisper : copier directement les fichiers .bin
    • Modèle Parakeet : extraire l’archive .tar.gz en conservant le nom de dossier spécifié
  • Après l’installation, les modèles sont détectés automatiquement au redémarrage de l’application

Comment contribuer

  • Vérifier les issues GitHub, puis créer un fork et une branche
  • Tester suffisamment sur la plateforme cible avant de soumettre une Pull Request
  • Il est possible de rejoindre la communauté par e-mail (contact@handy.computer) ou via Discord
  • L’objectif est de fournir une base que la communauté peut faire évoluer grâce à une codebase simple et bien structurée

Projets liés et licence

  • Handy CLI : version en ligne de commande basée sur Python
  • handy.computer : site officiel avec démo
  • Distribué sous licence MIT
  • Repose sur des projets open source comme Whisper (OpenAI), Silero et Tauri

Citation

  • « Handy peut mettre fin à votre recherche d’un outil de reconnaissance vocale non pas parce qu’il est parfait, mais parce que vous pouvez le rendre parfait. »

1 commentaires

 
GN⁺ 2026-01-17
Avis Hacker News
  • J’ai essayé plusieurs applis de STT, mais au final je me suis installé sur VoiceInk (local, paiement unique)
    Avec Parakeet V3, la réponse est presque instantanée et la précision est largement suffisante
    J’utilise souvent une routine où je parle à un agent CLI et je lui demande : « dis-moi comment tu as compris ce que j’ai dit »
    Ça permet à la fois de vérifier la compréhension et ça sert un peu de spécification
    J’ai aussi testé récemment la combinaison Handy + Parakeet v3, et ça marche vraiment très bien, donc je vais l’utiliser quelques jours
    Avec Cmd‑Shift‑D, on peut ouvrir l’interface « debug » et voir des options supplémentaires comme le post‑processing ou l’ajout d’espaces
    • J’aimerais qu’un de ces modèles soit spécialisé pour la programmation
      J’aimerais pouvoir dicter des commandes comme « cd ~/projects » ou « git push --force »
  • J’ai une dystonie, donc quand mes bras se raidissent, je ne peux pas taper au clavier
    Du coup, des applis TTS comme SuperWhisper m’ont beaucoup aidé
    J’espère que Handy offrira une expérience similaire
    Mais pour passer à l’étape suivante, je pense qu’il faut aller au-delà de la simple transcription voix‑texte et ajouter une extension basée sur le contexte
    Par exemple, dicter du code dans un IDE et obtenir du vrai code généré
    Au fond, il s’agit de combiner le TTS avec l’usage de l’ordinateur
    • J’ai créé un outil CLI appelé ultraplan
      Il enregistre la voix avec Whisper en local et stocke sous forme de timeline des captures d’écran, le contenu du presse-papiers, etc.
      Ensuite, un agent comme Claude Code lit cette timeline et reprend le travail
      On peut aussi faire du contrôle hands-free, par exemple dire « marco » pour prendre une capture d’écran
      Si ça t’intéresse, je peux le mettre en forme et le publier sur GitHub
    • Je suis d’accord avec toi. C’est justement pour ça que j’ai publié Handy en open source
      Je fais aussi des essais pour comprendre le contexte informatique avec de petits modèles locaux (moondream, qwen, etc.)
      Quand je me suis cassé un doigt il y a quelque temps, j’avais mappé des raccourcis sur Handy pour mettre en place un contrôle contextuel simple
    • Le « code à la voix » est étudié depuis bien avant les LLM
      Il y a par exemple un cas de 2013 comme Using Voice to Code Faster than Keyboard
      Et côté travaux récents, il y a aussi cet article
    • Ce que tu décris est déjà possible
      On peut envoyer la sortie STT à un LLM pour comprendre l’intention et générer un jeu de commandes
      En CLI, il est facile de transformer directement des commandes vocales en commandes shell
      En GUI, c’est un peu plus complexe parce qu’il faut connaître l’état de l’écran
      Sur macOS, MacWhisper peut envoyer le texte transcrit vers un endpoint compatible OpenAI
  • Petit retour après avoir essayé plusieurs applis de transcription vocale
    Superwhisper est payant, mais propose une option à vie et beaucoup de fonctionnalités. C’est maintenu par un développeur solo, donc il y a parfois des bugs
    Hex est l’option gratuite la plus légère et la plus propre
    Fluid Voice a une fonction originale qui affiche le texte en temps réel pendant qu’on parle
    Handy a une interface rose assez mignonne, et j’aime bien sa fenêtre d’historique. Le réglage de restauration du presse-papiers est un peu particulier
    En installant plusieurs applis en alternance, j’ai eu quelques conflits
    Grâce au fait que Nvidia a publié Parakeet en open source, elles sont toutes très rapides
    Je préfère les fonctions de streaming de transcription en temps réel : même si la qualité est plus faible au début, j’aime voir le texte tout de suite, puis le voir remplacé ensuite par une version de meilleure qualité
  • Après avoir cherché une appli STT pendant plusieurs semaines, j’ai découvert Handy
    La plupart sont payantes ou sur abonnement, au point que j’envisageais d’en faire une moi-même, mais Handy est rapide, simple et non intrusif
    En plus, il est mis à jour régulièrement, donc j’en suis vraiment content
    La fonction de post‑processing a aussi l’air très prometteuse
  • J’utilise Wispr Flow, mais pour me faire changer, il me faudrait une fonction de dictionnaire utilisateur pour les mots souvent mal reconnus (noms d’entreprise, noms de personnes, noms de bibliothèques, etc.)
    • Il y a une fonction appelée « Custom Words », c’est probablement de ça qu’il s’agit. Je n’ai pas encore pu la tester correctement
    • Une PR liée à ça devrait être fusionnée bientôt, donc on peut aussi compiler en avance pour l’essayer
    • Certains modèles affichent un niveau de confiance mot par mot
      Ajouter les mots à la main est utile, mais indiquer les mots incertains faciliterait aussi les corrections
  • Il y a un point à noter
    Le raccourci par défaut est Ctrl+Space, et la transcription est insérée au moment où on relâche la touche
    Si Ctrl est encore enfoncé à ce moment-là, le texte transcrit est interprété comme un caractère Ctrl
    Environnement de test : Linux x64, X11, Emacs
  • J’utilise Handy avec Parakeet v3 et c’est vraiment excellent
    J’ai aussi essayé Monologue, Superwhisper et Aqua, mais Handy fonctionne en local et sans abonnement
    Je le recommande vivement
  • Je me demande si quelqu’un l’a comparé à OpenWhispr
    D’après la description, ça a l’air similaire. Handy a eu sa première release en juin 2025, OpenWhispr est sorti un mois plus tard
    Handy a 11k étoiles GitHub, OpenWhispr autour de 730
    • J’ai utilisé les deux, et Handy était bien plus simple parce qu’on peut installer directement l’app macOS
      À l’époque, OpenWhispr n’avait pas le modèle Parakeet et son interface n’était pas très fluide
      Grâce à son interface minimaliste, Handy est intuitif à utiliser
      Il manque des fonctions avancées, mais ça fait deux mois que je l’utilise et je n’ai aucune intention de chercher une autre appli STT
  • Sur mon MacBook M1 Air, Handy est très rapide et plus précis que le STT natif de macOS
    Les réglages sont suffisamment simples pour être pratiques
    Je me demandais ce que signifiait l’option « discharging the model », mais ça n’a pas l’air d’avoir d’effet sur la RAM ou le CPU
    • C’est une fonction qui permet de garder le modèle en RAM pour un accès rapide
      Quand on le décharge, il quitte la mémoire, donc le démarrage devient plus lent
  • Le modèle Parakeet V3 est vraiment excellent