2 points par GN⁺ 2024-08-10 | 3 commentaires | Partager sur WhatsApp
  • Une « web app » gratuite qui permet de transcrire facilement des interviews enregistrées
  • Fonctionnalités principales
    • Pas besoin de basculer entre le lecteur vidéo et l’éditeur de document : tout se fait directement dans le navigateur
    • Possibilité de mettre en pause, rembobiner et avancer rapidement sans quitter le clavier
    • Navigation facile dans la transcription grâce à des horodatages interactifs
    • Sauvegarde automatique dans le stockage du navigateur à chaque seconde
    • Protection de la vie privée : les fichiers audio et les transcriptions ne quittent pas l’ordinateur
    • Export possible en Markdown, texte brut et Google Docs
    • Prise en charge des fichiers vidéo via un lecteur intégré
    • Open source sous licence MIT

Le résumé de GN⁺

  • oTranscribe est une web app gratuite qui simplifie la transcription d’enregistrements d’interviews
  • Les utilisateurs peuvent contrôler l’audio sans quitter le clavier, et la transcription est sauvegardée automatiquement chaque seconde
  • L’application met l’accent sur la protection de la vie privée : les fichiers audio et les transcriptions ne quittent pas l’ordinateur
  • Elle permet d’exporter en Markdown, en texte brut et vers Google Docs, pour réutiliser les transcriptions dans différents formats
  • Parmi les autres projets offrant des fonctionnalités similaires, on peut citer Express Scribe et TranscribeMe

3 commentaires

 
xguru 2024-08-11

Hein ? Je me demandais comment c’était possible dans le navigateur... mais en fait, c’est simplement un outil pour écouter et retranscrire manuellement, sans IA.
De nos jours, Whisper reconnaît aussi très bien le coréen, donc je ne vois pas forcément pourquoi il faudrait utiliser ce genre d’outil..

 
znjadong 2024-08-14

Lorsqu’il y a beaucoup d’intervenants, que la prononciation est peu claire ou que la qualité de l’enregistrement est mauvaise, il peut être difficile de compter sur l’aide de l’IA. Et il arrive souvent qu’on ait besoin d’un niveau de qualité supérieur à quelque chose qui fonctionne « suffisamment bien ».

 
GN⁺ 2024-08-10
Avis Hacker News
  • A transcrit une interview en utilisant Whisper-diarization de MahmoudAshraf97

    • Génère des fichiers séparant les interventions de plusieurs locuteurs par numéro de locuteur
    • Génère aussi des fichiers avec horodatage, utilisables comme sous-titres
  • OTranscribe n’est pas un outil de reconnaissance vocale automatique, mais une interface qui aide à la transcription manuelle

  • Recherche une application capable de faire une transcription mot à mot en temps réel, fonctionnant en local et utilisant des modèles open source récents

    • Utilise otter.ai, mais il faut une connexion Internet et il y a des problèmes de latence de transcription
    • Les applications basées sur Whisper doivent traiter l’enregistrement complet en une seule fois
    • Le framework de reconnaissance vocale d’Apple est encore un peu limité pour l’instant
  • Surprise par l’absence d’intégration de l’IA

    • Même les résultats produits par l’IA nécessitent une relecture et de la QA pour atteindre une qualité publiable
    • Il faut gérer l’identification des locuteurs, la correction de noms de famille inhabituels, etc.
  • oTranscribe ne convertit pas automatiquement l’audio en texte

    • C’est un outil qui rend la transcription manuelle moins pénible
  • Recommande le service TurboScribe

    • Transcription gratuite jusqu’à 3 fichiers par jour (30 minutes par fichier)
    • Le forfait payant permet de transcrire jusqu’à 10 heures par fichier
    • Prend en charge la reconnaissance des locuteurs, différents formats d’export et inclut des outils d’IA
  • Expérimentation de transcription d’interview avec Gemini-1.5-Pro-Experiment-0801

    • Le résultat est presque parfait
    • L’usage de guillemets autour de certains mots est particulièrement impressionnant
  • Utilise l’application iOS gratuite d’Aiko

    • Utilise le modèle Whisper d’OpenAI
    • Export possible aux formats SRT, TXT, CSV, JSON, etc.
  • Développe une application open source macOS avec Whisper et pyannote

    • Les fonctionnalités sont là, mais c’est lent
    • Rencontre des difficultés pour convertir Pyannote vers CoreML
    • Les contributions sont les bienvenues
  • Développe un outil intégrant l’IA

    • Téléchargement depuis YouTube, transcription avec Vosk, séparation des locuteurs avec pyannote
    • Stocke les transcriptions dans un moteur de recherche, il reste à implémenter la web app
    • Souhaite collaborer