21 points par GN⁺ 2025-08-19 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Whispering est un outil de transcription vocale local-first qui, après l’appui sur un raccourci clavier, effectue la conversion voix → texte puis colle immédiatement le résultat dans le presse-papiers
  • Contrairement à de nombreux outils existants qui reposent sur des services fermés et payants, Whispering offre un traitement des données transparent et l’accessibilité de l’open source
  • L’utilisateur peut choisir entre une approche locale (Whisper C++, Speaches, etc.) ou cloud (Groq, OpenAI, ElevenLabs, etc.), et configurer les fonctions de transformation IA souhaitées
  • L’application, légère avec 22 MB et rapide au lancement, inclut des fonctions avancées comme les raccourcis personnalisés, le mode d’activation vocale et le formatage automatique du texte
  • Elle permet de concilier propriété des données et réduction des coûts, ce qui en fait une alternative pertinente aux SaaS de transcription fermés

Aperçu de Whispering

  • Whispering est une application de transcription vocale gratuite et open source : après avoir appuyé sur un raccourci, l’utilisateur parle, le contenu est converti en texte puis copié automatiquement
    • Les données personnelles sont, par défaut, stockées en local et ne sont pas envoyées à l’extérieur
    • Si souhaité, il est possible de connecter directement des API externes comme OpenAI, Groq ou ElevenLabs
  • Transparence et garantie de la propriété des données sont mises en avant comme valeurs clés

Fonctions principales et caractéristiques

  • Prise en charge du mode d’activation vocale (Voice Activity Detection, VAD)
    • L’enregistrement démarre automatiquement quand l’utilisateur parle, puis s’arrête automatiquement lorsqu’il se tait
  • Fonction de transformations basées sur l’IA (Transformations)
    • Il est possible de configurer divers workflows IA pour la correction grammaticale, la traduction, le résumé, l’application de mise en forme, etc.
    • Choix parmi plusieurs fournisseurs de LLM, dont OpenAI, Anthropic, Google Gemini et Groq
  • Prise en charge des raccourcis personnalisés pour adapter l’outil à l’environnement de l’utilisateur
  • Structure à faible coût : l’utilisateur paie directement le fournisseur via sa propre clé API
    • Exemple : avec un modèle Groq, 0.02$/heure → environ 0.20$/mois (soit 100 fois moins cher qu’un SaaS traditionnel)

Installation et utilisation

  • Binaires disponibles pour macOS, Windows, Linux
    • macOS : versions distinctes pour Apple Silicon et Intel
    • Windows : options d’installation MSI/EXE
    • Linux : prise en charge de AppImage, DEB et RPM
  • Une version web app est également proposée si l’installation est contraignante (mais sans prise en charge des raccourcis globaux)

Méthode de traitement des données

  • Tous les enregistrements et résultats de transcription sont stockés dans IndexedDB pour une gestion locale
  • Si l’utilisateur choisit un service de transcription externe, seuls des appels directs via clé API sont effectués
    • Pas de serveur intermédiaire, pas de collecte de données
  • Les services de transformation ne transmettent également les données qu’au fournisseur de LLM choisi par l’utilisateur
    • Les workflows de transformation, prompts et paramètres sont stockés en local

Différences et avantages

  • Les applications de transcription existantes passent généralement par des serveurs intermédiaires et facturent 15 à 30 dollars par mois
  • Whispering adopte une architecture sans intermédiaire, permettant de se connecter directement aux fournisseurs pour réduire les coûts
  • En choisissant les options locales, il est possible d’obtenir un usage entièrement hors ligne, gratuit et illimité

Développement et architecture

  • Développé avec Svelte 5 + Tauri, avec prise en charge à la fois du desktop et du web
    • Taille d’environ 22 MB, lancement rapide, usage minimal des ressources
  • La base de code repose sur une architecture en 3 couches séparant couche de services, couche de requêtes et couche UI
    • 97 % du code est partagé entre les versions web et desktop
  • L’extension navigateur (React + shadcn/ui) est actuellement suspendue temporairement, tandis que l’application desktop est en phase de stabilisation

Contribution et communauté

  • Tout le monde peut examiner le code source, contribuer à des fonctionnalités ou ajouter de nouveaux adaptateurs de services de transcription/IA
  • Directives de développement : maintien des patterns TypeScript/Svelte, gestion des erreurs fondée sur la bibliothèque WellCrafted
  • Les retours utilisateurs et la collaboration passent par la communauté Discord et les GitHub Issues
  • Basé sur la licence MIT, le projet peut être librement forké, modifié et redistribué

Principales réponses de la FAQ

  • Utilisation hors ligne : prise en charge complète hors ligne avec le mode local Speaches
  • Coût réel : avec Groq, 0.2 à 3$/mois ; avec OpenAI, 1.8 à 16.2$/mois ; en local, c’est gratuit
  • Sécurité / confidentialité : les enregistrements restent stockés en local ; les envois externes ne se font qu’aux API des fournisseurs choisis directement par l’utilisateur
  • Plateformes prises en charge : desktop macOS, Windows, Linux + navigateur web

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.