- Whispering est un outil de transcription vocale local-first qui, après l’appui sur un raccourci clavier, effectue la conversion voix → texte puis colle immédiatement le résultat dans le presse-papiers
- Contrairement à de nombreux outils existants qui reposent sur des services fermés et payants, Whispering offre un traitement des données transparent et l’accessibilité de l’open source
- L’utilisateur peut choisir entre une approche locale (Whisper C++, Speaches, etc.) ou cloud (Groq, OpenAI, ElevenLabs, etc.), et configurer les fonctions de transformation IA souhaitées
- L’application, légère avec 22 MB et rapide au lancement, inclut des fonctions avancées comme les raccourcis personnalisés, le mode d’activation vocale et le formatage automatique du texte
- Elle permet de concilier propriété des données et réduction des coûts, ce qui en fait une alternative pertinente aux SaaS de transcription fermés
Aperçu de Whispering
- Whispering est une application de transcription vocale gratuite et open source : après avoir appuyé sur un raccourci, l’utilisateur parle, le contenu est converti en texte puis copié automatiquement
- Les données personnelles sont, par défaut, stockées en local et ne sont pas envoyées à l’extérieur
- Si souhaité, il est possible de connecter directement des API externes comme OpenAI, Groq ou ElevenLabs
- Transparence et garantie de la propriété des données sont mises en avant comme valeurs clés
Fonctions principales et caractéristiques
- Prise en charge du mode d’activation vocale (Voice Activity Detection, VAD)
- L’enregistrement démarre automatiquement quand l’utilisateur parle, puis s’arrête automatiquement lorsqu’il se tait
- Fonction de transformations basées sur l’IA (Transformations)
- Il est possible de configurer divers workflows IA pour la correction grammaticale, la traduction, le résumé, l’application de mise en forme, etc.
- Choix parmi plusieurs fournisseurs de LLM, dont OpenAI, Anthropic, Google Gemini et Groq
- Prise en charge des raccourcis personnalisés pour adapter l’outil à l’environnement de l’utilisateur
- Structure à faible coût : l’utilisateur paie directement le fournisseur via sa propre clé API
- Exemple : avec un modèle Groq, 0.02$/heure → environ 0.20$/mois (soit 100 fois moins cher qu’un SaaS traditionnel)
Installation et utilisation
- Binaires disponibles pour macOS, Windows, Linux
- macOS : versions distinctes pour Apple Silicon et Intel
- Windows : options d’installation MSI/EXE
- Linux : prise en charge de AppImage, DEB et RPM
- Une version web app est également proposée si l’installation est contraignante (mais sans prise en charge des raccourcis globaux)
Méthode de traitement des données
- Tous les enregistrements et résultats de transcription sont stockés dans IndexedDB pour une gestion locale
- Si l’utilisateur choisit un service de transcription externe, seuls des appels directs via clé API sont effectués
- Pas de serveur intermédiaire, pas de collecte de données
- Les services de transformation ne transmettent également les données qu’au fournisseur de LLM choisi par l’utilisateur
- Les workflows de transformation, prompts et paramètres sont stockés en local
Différences et avantages
- Les applications de transcription existantes passent généralement par des serveurs intermédiaires et facturent 15 à 30 dollars par mois
- Whispering adopte une architecture sans intermédiaire, permettant de se connecter directement aux fournisseurs pour réduire les coûts
- En choisissant les options locales, il est possible d’obtenir un usage entièrement hors ligne, gratuit et illimité
Développement et architecture
- Développé avec Svelte 5 + Tauri, avec prise en charge à la fois du desktop et du web
- Taille d’environ 22 MB, lancement rapide, usage minimal des ressources
- La base de code repose sur une architecture en 3 couches séparant couche de services, couche de requêtes et couche UI
- 97 % du code est partagé entre les versions web et desktop
- L’extension navigateur (React + shadcn/ui) est actuellement suspendue temporairement, tandis que l’application desktop est en phase de stabilisation
Contribution et communauté
- Tout le monde peut examiner le code source, contribuer à des fonctionnalités ou ajouter de nouveaux adaptateurs de services de transcription/IA
- Directives de développement : maintien des patterns TypeScript/Svelte, gestion des erreurs fondée sur la bibliothèque WellCrafted
- Les retours utilisateurs et la collaboration passent par la communauté Discord et les GitHub Issues
- Basé sur la licence MIT, le projet peut être librement forké, modifié et redistribué
Principales réponses de la FAQ
- Utilisation hors ligne : prise en charge complète hors ligne avec le mode local Speaches
- Coût réel : avec Groq, 0.2 à 3$/mois ; avec OpenAI, 1.8 à 16.2$/mois ; en local, c’est gratuit
- Sécurité / confidentialité : les enregistrements restent stockés en local ; les envois externes ne se font qu’aux API des fournisseurs choisis directement par l’utilisateur
- Plateformes prises en charge : desktop macOS, Windows, Linux + navigateur web
Aucun commentaire pour le moment.