- La détection de tour de parole est l’une des fonctions les plus importantes dans la stack d’IA vocale : elle permet de déterminer à quel moment un agent vocal doit répondre quand une personne parle
- La plupart des agents vocaux reposent sur la VAD (Voice Activity Detection) pour distinguer l’audio en segments vocaux et non vocaux, ce qui signifie que les dimensions acoustiques et linguistiques ne sont pas prises en compte
- Les humains effectuent la détection de tour de parole à partir de signaux complexes comme la grammaire, l’intonation et le débit de parole
- Objectif : construire un modèle plus proche des attentes humaines qu’une approche fondée sur la VAD
- Projet de développement d’un modèle open source de détection de tours de parole audio, piloté par la communauté
- Licence BSD 2-clause → tout le monde peut l’utiliser, le forker et y contribuer
- Le projet a démarré dans l’écosystème Pipecat
- Pipecat : framework open source, indépendant des fournisseurs, pour l’IA vocale et multimodale
- Objectifs du projet
- Objectifs de haut niveau
- Facile à utiliser pour tout le monde
- Facile à déployer en production
- Facile à fine-tuner pour des applications spécifiques
- Limites actuelles du modèle
- Prise en charge de l’anglais uniquement
- Vitesse d’inférence relativement lente : environ 150 ms sur GPU, environ 1500 ms sur CPU
- Les données d’entraînement portent surtout sur des paroles inachevées en fin de segment (
filler words)
- Objectifs à moyen terme
- Prise en charge de plusieurs langues
- Temps d’inférence : moins de 50 ms sur GPU, moins de 500 ms sur CPU
- Intégrer des données d’entraînement couvrant un éventail plus large de nuances vocales
- Construire un pipeline complet de génération de données synthétiques
- Prendre en charge le conditionnement basé sur le texte (ex. : saisie de carte bancaire, numéro de téléphone, adresse, etc.)
- Architecture du modèle
- Basé sur le backbone Wav2Vec2-BERT de Meta AI (nombre de paramètres : 580M)
- Utilise des données audio non supervisées totalisant 4,5 millions d’heures dans 143 langues
- Structure actuelle du modèle :
- Wav2Vec2-BERT → classifieur à 2 couches (
classification head)
- Utilise
Wav2Vec2BertForSequenceClassification de Hugging Face
- Architectures actuellement à l’étude :
- Tests en cours pour vérifier si un classifieur simple reste efficace à mesure que le dataset s’étend
- Évaluation de l’introduction possible de structures plus complexes
1 commentaires
Avis sur Hacker News
J’ai déjà utilisé pipecat et c’était bien. Mais je suis passé à sherpa-onnx, qui peut être compilé en natif et s’exécuter sur des appareils edge
Il y a eu quelques mises à jour intéressantes aujourd’hui
J’ai trouvé la plupart des réponses dans le README. Il est bien rédigé
Je me demande s’il serait possible de partager les ressources nécessaires et le volume requis pour affiner Wav2Vec2-BERT
Je me demande ce qu’est la détection de tour
Je suis content de voir cette technologie continuer à progresser
En tant que personne diagnostiquée autiste HF, j’aimerais appliquer cette technologie à une oreillette
Après avoir examiné quelques modèles basés sur les tours, les implémentations sont très cohérentes. J’ai hâte de voir comment cette technologie va évoluer
J’aimerais que Vedal intègre cette technologie dans le modèle de Neuro-sama. Le cas d’un bot osu devenu une AI Vtuber
Je me demande si cela prend en charge plusieurs locuteurs
En train de fork