Whispering - application open source de transcription vocale
(github.com/epicenter-so)- Whispering est un outil de transcription vocale local-first qui, après l’appui sur un raccourci clavier, effectue la conversion voix → texte puis colle immédiatement le résultat dans le presse-papiers
- Contrairement à de nombreux outils existants qui reposent sur des services fermés et payants, Whispering offre un traitement des données transparent et l’accessibilité de l’open source
- L’utilisateur peut choisir entre une approche locale (Whisper C++, Speaches, etc.) ou cloud (Groq, OpenAI, ElevenLabs, etc.), et configurer les fonctions de transformation IA souhaitées
- L’application, légère avec 22 MB et rapide au lancement, inclut des fonctions avancées comme les raccourcis personnalisés, le mode d’activation vocale et le formatage automatique du texte
- Elle permet de concilier propriété des données et réduction des coûts, ce qui en fait une alternative pertinente aux SaaS de transcription fermés
Aperçu de Whispering
- Whispering est une application de transcription vocale gratuite et open source : après avoir appuyé sur un raccourci, l’utilisateur parle, le contenu est converti en texte puis copié automatiquement
- Les données personnelles sont, par défaut, stockées en local et ne sont pas envoyées à l’extérieur
- Si souhaité, il est possible de connecter directement des API externes comme OpenAI, Groq ou ElevenLabs
- Transparence et garantie de la propriété des données sont mises en avant comme valeurs clés
Fonctions principales et caractéristiques
- Prise en charge du mode d’activation vocale (Voice Activity Detection, VAD)
- L’enregistrement démarre automatiquement quand l’utilisateur parle, puis s’arrête automatiquement lorsqu’il se tait
- Fonction de transformations basées sur l’IA (Transformations)
- Il est possible de configurer divers workflows IA pour la correction grammaticale, la traduction, le résumé, l’application de mise en forme, etc.
- Choix parmi plusieurs fournisseurs de LLM, dont OpenAI, Anthropic, Google Gemini et Groq
- Prise en charge des raccourcis personnalisés pour adapter l’outil à l’environnement de l’utilisateur
- Structure à faible coût : l’utilisateur paie directement le fournisseur via sa propre clé API
- Exemple : avec un modèle Groq, 0.02$/heure → environ 0.20$/mois (soit 100 fois moins cher qu’un SaaS traditionnel)
Installation et utilisation
- Binaires disponibles pour macOS, Windows, Linux
- macOS : versions distinctes pour Apple Silicon et Intel
- Windows : options d’installation MSI/EXE
- Linux : prise en charge de AppImage, DEB et RPM
- Une version web app est également proposée si l’installation est contraignante (mais sans prise en charge des raccourcis globaux)
Méthode de traitement des données
- Tous les enregistrements et résultats de transcription sont stockés dans IndexedDB pour une gestion locale
- Si l’utilisateur choisit un service de transcription externe, seuls des appels directs via clé API sont effectués
- Pas de serveur intermédiaire, pas de collecte de données
- Les services de transformation ne transmettent également les données qu’au fournisseur de LLM choisi par l’utilisateur
- Les workflows de transformation, prompts et paramètres sont stockés en local
Différences et avantages
- Les applications de transcription existantes passent généralement par des serveurs intermédiaires et facturent 15 à 30 dollars par mois
- Whispering adopte une architecture sans intermédiaire, permettant de se connecter directement aux fournisseurs pour réduire les coûts
- En choisissant les options locales, il est possible d’obtenir un usage entièrement hors ligne, gratuit et illimité
Développement et architecture
- Développé avec Svelte 5 + Tauri, avec prise en charge à la fois du desktop et du web
- Taille d’environ 22 MB, lancement rapide, usage minimal des ressources
- La base de code repose sur une architecture en 3 couches séparant couche de services, couche de requêtes et couche UI
- 97 % du code est partagé entre les versions web et desktop
- L’extension navigateur (React + shadcn/ui) est actuellement suspendue temporairement, tandis que l’application desktop est en phase de stabilisation
Contribution et communauté
- Tout le monde peut examiner le code source, contribuer à des fonctionnalités ou ajouter de nouveaux adaptateurs de services de transcription/IA
- Directives de développement : maintien des patterns TypeScript/Svelte, gestion des erreurs fondée sur la bibliothèque WellCrafted
- Les retours utilisateurs et la collaboration passent par la communauté Discord et les GitHub Issues
- Basé sur la licence MIT, le projet peut être librement forké, modifié et redistribué
Principales réponses de la FAQ
- Utilisation hors ligne : prise en charge complète hors ligne avec le mode local Speaches
- Coût réel : avec Groq, 0.2 à 3$/mois ; avec OpenAI, 1.8 à 16.2$/mois ; en local, c’est gratuit
- Sécurité / confidentialité : les enregistrements restent stockés en local ; les envois externes ne se font qu’aux API des fournisseurs choisis directement par l’utilisateur
- Plateformes prises en charge : desktop macOS, Windows, Linux + navigateur web
2 commentaires
Pour implémenter une fonction de reconnaissance vocale dans un réseau isolé, j’utilise un petit serveur web qui fait du STT avec whisper.
Ils présentent ça comme si tout fonctionnait hors ligne, mais à part la transcription, pour des choses comme la transformation il faut quand même dépendre du cloud, donc je me demande bien ce que signifient réellement cette différence et ces avantages.
Avis Hacker News