Handy – application gratuite et open source de reconnaissance vocale

(github.com/cjpais)

2 points par GN⁺ 2026-01-17 | 1 commentaires | Partager sur WhatsApp

Handy est une application de bureau gratuite et open source de transcription voix-texte qui fonctionne entièrement hors ligne, avec une conception centrée sur la protection de la vie privée
Conçue sur Tauri (Rust + React/TypeScript), elle permet d’appuyer sur un raccourci, de parler, puis de voir la voix saisie directement dans un champ de texte
Elle prend en charge les modèles Whisper et Parakeet V3, et effectue la reconnaissance vocale en local via accélération GPU ou sur CPU
Elle fonctionne sur Windows, macOS et Linux, et a été développée avec une architecture privilégiant la facilité d’extension et de fork, afin d’encourager les contributions des développeurs
Outil de saisie vocale axé sur la confidentialité, il traite tout en local sans envoi vers le cloud, avec un fort potentiel en matière d’accessibilité et de personnalisation

Vue d’ensemble

Handy est une application de reconnaissance vocale gratuite, open source et extensible qui fonctionne entièrement hors ligne, sans connexion Internet
Elle repose sur le framework Tauri et combine un backend Rust avec un frontend React/TypeScript
L’utilisateur appuie sur un raccourci clavier pour parler, puis, en relâchant, le modèle Whisper ou Parakeet V3 convertit la voix en texte et le colle dans l’application active
Toutes les données vocales sont traitées en local, ce qui élimine le risque de fuite de données personnelles

La philosophie de Handy

Gratuit : les outils d’accessibilité doivent être utilisables par tout le monde
Open source : chacun peut étendre et améliorer les fonctionnalités
Respect de la vie privée : les données vocales ne sont pas envoyées vers le cloud
Simplicité : se concentrer sur un seul objectif, à savoir convertir la voix en texte
L’objectif n’est pas de créer l’application « la plus parfaite », mais celle qui est « la plus facile à forker »

Fonctionnement

L’utilisateur peut démarrer et arrêter l’enregistrement avec un raccourci clavier ou utiliser un mode push-to-talk
Silero VAD filtre les silences, puis les modèles Whisper ou Parakeet V3 convertissent la voix
- Modèles Whisper : versions Small, Medium, Turbo et Large, avec prise en charge de l’accélération GPU
- Parakeet V3 : optimisé CPU, avec détection automatique de la langue
Le texte converti est automatiquement inséré dans le champ de saisie de l’application utilisée
Compatible avec Windows, macOS et Linux

Architecture

Frontend : React + TypeScript + Tailwind CSS
Backend : basé sur Rust, chargé du traitement audio et de l’inférence de machine learning
Bibliothèques clés
- whisper-rs : reconnaissance vocale locale avec les modèles Whisper
- transcription-rs : reconnaissance CPU avec le modèle Parakeet
- cpal : entrées/sorties audio
- vad-rs : détection d’activité vocale
- rdev : gestion des raccourcis globaux et des événements système
- rubato : rééchantillonnage audio
Mode debug : accessible avec Cmd+Shift+D (macOS) ou Ctrl+Shift+D (Windows/Linux)

Problèmes connus et limitations

Crashs des modèles Whisper : des problèmes de plantage existent dans certains environnements Windows/Linux
Prise en charge limitée de Wayland : sur Linux avec Wayland, l’installation de wtype ou dotool est nécessaire
Outils de saisie de texte
- X11 : xdotool
- Wayland : wtype ou dotool
- Si ces outils ne sont pas installés, enigo est utilisé à la place, avec une compatibilité limitée
Overlay Linux désactivé par défaut : pour éviter les conflits de focus, il est désactivé par défaut

Configuration système requise

Pour les modèles Whisper
- macOS : Mac série M ou Intel Mac
- Windows/Linux : GPU Intel, AMD, NVIDIA (Ubuntu 22.04/24.04 recommandé)
Pour le modèle Parakeet V3
- CPU uniquement, Intel Skylake (6e génération) ou plus recommandé
- Environ 5 fois plus rapide que le temps réel sur un matériel de milieu de gamme
- Détection automatique de la langue incluse

Feuille de route de développement

Fonctionnalités en cours
- Ajout de fichiers de logs de debug
- Améliorations des raccourcis macOS (prise en charge de la touche Globe, réécriture de la gestion des raccourcis globaux)
- Fonction d’analyse optionnelle : collecte anonyme de données d’usage, sur la base d’un consentement explicite
- Refactorisation du système de configuration et amélioration des abstractions
- Réorganisation de la structure des commandes Tauri et amélioration de la sûreté des types

Dépannage et installation manuelle des modèles

Dans les environnements à restrictions réseau, les modèles peuvent être téléchargés et installés manuellement
Créer un dossier models dans le répertoire de données de l’application, puis y placer les fichiers de modèle
- Modèles Whisper : copier directement les fichiers .bin
- Modèle Parakeet : extraire l’archive .tar.gz en conservant le nom de dossier spécifié
Après l’installation, les modèles sont détectés automatiquement au redémarrage de l’application

Comment contribuer

Vérifier les issues GitHub, puis créer un fork et une branche
Tester suffisamment sur la plateforme cible avant de soumettre une Pull Request
Il est possible de rejoindre la communauté par e-mail (contact@handy.computer) ou via Discord
L’objectif est de fournir une base que la communauté peut faire évoluer grâce à une codebase simple et bien structurée

Projets liés et licence

Handy CLI : version en ligne de commande basée sur Python
handy.computer : site officiel avec démo
Distribué sous licence MIT
Repose sur des projets open source comme Whisper (OpenAI), Silero et Tauri

Citation

« Handy peut mettre fin à votre recherche d’un outil de reconnaissance vocale non pas parce qu’il est parfait, mais parce que vous pouvez le rendre parfait. »

1 commentaires

GN⁺ 2026-01-17

Avis Hacker News

J’ai essayé plusieurs applis de STT, mais au final je me suis installé sur VoiceInk (local, paiement unique)
Avec Parakeet V3, la réponse est presque instantanée et la précision est largement suffisante
J’utilise souvent une routine où je parle à un agent CLI et je lui demande : « dis-moi comment tu as compris ce que j’ai dit »
Ça permet à la fois de vérifier la compréhension et ça sert un peu de spécification
J’ai aussi testé récemment la combinaison Handy + Parakeet v3, et ça marche vraiment très bien, donc je vais l’utiliser quelques jours
Avec Cmd‑Shift‑D, on peut ouvrir l’interface « debug » et voir des options supplémentaires comme le post‑processing ou l’ajout d’espaces
- J’aimerais qu’un de ces modèles soit spécialisé pour la programmation
  J’aimerais pouvoir dicter des commandes comme « cd ~/projects » ou « git push --force »
J’ai une dystonie, donc quand mes bras se raidissent, je ne peux pas taper au clavier
Du coup, des applis TTS comme SuperWhisper m’ont beaucoup aidé
J’espère que Handy offrira une expérience similaire
Mais pour passer à l’étape suivante, je pense qu’il faut aller au-delà de la simple transcription voix‑texte et ajouter une extension basée sur le contexte
Par exemple, dicter du code dans un IDE et obtenir du vrai code généré
Au fond, il s’agit de combiner le TTS avec l’usage de l’ordinateur
- J’ai créé un outil CLI appelé ultraplan
  Il enregistre la voix avec Whisper en local et stocke sous forme de timeline des captures d’écran, le contenu du presse-papiers, etc.
  Ensuite, un agent comme Claude Code lit cette timeline et reprend le travail
  On peut aussi faire du contrôle hands-free, par exemple dire « marco » pour prendre une capture d’écran
  Si ça t’intéresse, je peux le mettre en forme et le publier sur GitHub
- Je suis d’accord avec toi. C’est justement pour ça que j’ai publié Handy en open source
  Je fais aussi des essais pour comprendre le contexte informatique avec de petits modèles locaux (moondream, qwen, etc.)
  Quand je me suis cassé un doigt il y a quelque temps, j’avais mappé des raccourcis sur Handy pour mettre en place un contrôle contextuel simple
- Le « code à la voix » est étudié depuis bien avant les LLM
  Il y a par exemple un cas de 2013 comme Using Voice to Code Faster than Keyboard
  Et côté travaux récents, il y a aussi cet article
- Ce que tu décris est déjà possible
  On peut envoyer la sortie STT à un LLM pour comprendre l’intention et générer un jeu de commandes
  En CLI, il est facile de transformer directement des commandes vocales en commandes shell
  En GUI, c’est un peu plus complexe parce qu’il faut connaître l’état de l’écran
  Sur macOS, MacWhisper peut envoyer le texte transcrit vers un endpoint compatible OpenAI
Petit retour après avoir essayé plusieurs applis de transcription vocale
Superwhisper est payant, mais propose une option à vie et beaucoup de fonctionnalités. C’est maintenu par un développeur solo, donc il y a parfois des bugs
Hex est l’option gratuite la plus légère et la plus propre
Fluid Voice a une fonction originale qui affiche le texte en temps réel pendant qu’on parle
Handy a une interface rose assez mignonne, et j’aime bien sa fenêtre d’historique. Le réglage de restauration du presse-papiers est un peu particulier
En installant plusieurs applis en alternance, j’ai eu quelques conflits
Grâce au fait que Nvidia a publié Parakeet en open source, elles sont toutes très rapides
Je préfère les fonctions de streaming de transcription en temps réel : même si la qualité est plus faible au début, j’aime voir le texte tout de suite, puis le voir remplacé ensuite par une version de meilleure qualité
Après avoir cherché une appli STT pendant plusieurs semaines, j’ai découvert Handy
La plupart sont payantes ou sur abonnement, au point que j’envisageais d’en faire une moi-même, mais Handy est rapide, simple et non intrusif
En plus, il est mis à jour régulièrement, donc j’en suis vraiment content
La fonction de post‑processing a aussi l’air très prometteuse
J’utilise Wispr Flow, mais pour me faire changer, il me faudrait une fonction de dictionnaire utilisateur pour les mots souvent mal reconnus (noms d’entreprise, noms de personnes, noms de bibliothèques, etc.)
- Il y a une fonction appelée « Custom Words », c’est probablement de ça qu’il s’agit. Je n’ai pas encore pu la tester correctement
- Une PR liée à ça devrait être fusionnée bientôt, donc on peut aussi compiler en avance pour l’essayer
- Certains modèles affichent un niveau de confiance mot par mot
  Ajouter les mots à la main est utile, mais indiquer les mots incertains faciliterait aussi les corrections
Il y a un point à noter
Le raccourci par défaut est Ctrl+Space, et la transcription est insérée au moment où on relâche la touche
Si Ctrl est encore enfoncé à ce moment-là, le texte transcrit est interprété comme un caractère Ctrl
Environnement de test : Linux x64, X11, Emacs
J’utilise Handy avec Parakeet v3 et c’est vraiment excellent
J’ai aussi essayé Monologue, Superwhisper et Aqua, mais Handy fonctionne en local et sans abonnement
Je le recommande vivement
Je me demande si quelqu’un l’a comparé à OpenWhispr
D’après la description, ça a l’air similaire. Handy a eu sa première release en juin 2025, OpenWhispr est sorti un mois plus tard
Handy a 11k étoiles GitHub, OpenWhispr autour de 730
- J’ai utilisé les deux, et Handy était bien plus simple parce qu’on peut installer directement l’app macOS
  À l’époque, OpenWhispr n’avait pas le modèle Parakeet et son interface n’était pas très fluide
  Grâce à son interface minimaliste, Handy est intuitif à utiliser
  Il manque des fonctions avancées, mais ça fait deux mois que je l’utilise et je n’ai aucune intention de chercher une autre appli STT
Sur mon MacBook M1 Air, Handy est très rapide et plus précis que le STT natif de macOS
Les réglages sont suffisamment simples pour être pratiques
Je me demandais ce que signifiait l’option « discharging the model », mais ça n’a pas l’air d’avoir d’effet sur la RAM ou le CPU
- C’est une fonction qui permet de garder le modèle en RAM pour un accès rapide
  Quand on le décharge, il quitte la mémoire, donc le démarrage devient plus lent
Le modèle Parakeet V3 est vraiment excellent

Handy – application gratuite et open source de reconnaissance vocale

Vue d’ensemble

La philosophie de Handy

Fonctionnement

Architecture

Problèmes connus et limitations

Configuration système requise

Feuille de route de développement

Dépannage et installation manuelle des modèles

Comment contribuer

Projets liés et licence

Citation

À lire aussi

1 commentaires

Avis Hacker News