FFmpeg 8.0 ajoute la prise en charge de Whisper

(code.ffmpeg.org)

31 points par GN⁺ 2025-08-14 | Aucun commentaire pour le moment. | Partager sur WhatsApp

La version 8.0 de FFmpeg ajoute officiellement la prise en charge du modèle de reconnaissance vocale Whisper
Whisper est un modèle open source de reconnaissance vocale développé par OpenAI, utilisé pour la conversion automatique de la parole dans de nombreuses langues
Cette intégration accroît les possibilités d’automatiser directement des workflows de transcription parole-texte dans les tâches de traitement vidéo et audio
Elle renforce fortement la polyvalence et l’efficacité de FFmpeg pour les développeurs et dans les domaines de l’automatisation des médias
En intégrant des fonctions récentes de reconnaissance vocale, elle réduit le besoin d’outils externes supplémentaires ou d’intégrations complexes

Aperçu de la prise en charge de Whisper dans FFmpeg 8.0

La version 8.0 de FFmpeg ajoute la prise en charge du modèle de reconnaissance vocale Whisper, offrant une fonction de conversion automatique des données vocales en texte dans différentes langues
Whisper s’appuie sur un algorithme basé sur le deep learning conçu par OpenAI, garantissant des performances de transcription parole-texte de haute précision
Les utilisateurs actuels de FFmpeg peuvent désormais générer des sous-titres ou extraire le contenu parlé de fichiers vidéo et audio grâce à la prise en charge intégrée de Whisper, sans passer par des outils externes

Grâce à l’intégration de Whisper, il devient possible de mettre en place des workflows de reconnaissance vocale efficaces et hautement extensibles dans des pipelines de traitement et d’automatisation des médias basés sur FFmpeg
Avec l’algorithme de reconnaissance vocale intégré, les développeurs peuvent obtenir des résultats de transcription texte avec une simple commande, sans avoir à gérer des intégrations complexes supplémentaires ni à écrire des scripts séparés

Dans des domaines variés comme la gestion de vastes ressources médias, la génération de sous-titres ou l’archivage de données vidéo, la combinaison FFmpeg + Whisper présente l’avantage de réunir rentabilité et automatisation
Alors qu’auparavant il fallait relier un outil open source distinct de reconnaissance vocale à FFmpeg, il est désormais possible de traiter cela directement dans FFmpeg, avec à la clé une simplification du workflow et une amélioration attendue de la vitesse de traitement

Un filtre audio a été ajouté à FFmpeg sur la base de la bibliothèque Whisper.cpp, afin d’exécuter directement de la reconnaissance automatique de la parole (ASR) à l’intérieur de FFmpeg
Il peut être activé avec l’option --enable-whisper, et le chemin du modèle (model) est obligatoire
Principales options : réglage de la langue (language), utilisation du GPU (use_gpu), taille de file (queue), format de sortie (format: text/srt/json), modèle et seuils de VAD (détection d’activité vocale), etc.
- Une valeur queue faible améliore la réactivité, mais réduit la précision et augmente la charge CPU ; une valeur élevée améliore la précision, mais augmente la latence
- L’option destination permet d’enregistrer les résultats dans un fichier de sortie, une URL ou des métadonnées, et prend aussi en charge le protocole AVIO
Des exemples sont fournis pour des scénarios comme la génération de sous-titres SRT, l’envoi HTTP au format JSON et la transcription en temps réel depuis une entrée micro (avec VAD)
- Exemple de génération d’un fichier de sous-titres SRT
```
ffmpeg -i input.mp4 -vn \  
-af &quot;whisper=model=../whisper.cpp/models/ggml-base.en.bin:language=en:queue=3:destination=output.srt:format=srt&quot; \  
-f null -  
```