Smart-turn - modèle open source de détection de tours de parole audio

(github.com/pipecat-ai)

8 points par GN⁺ 2025-03-10 | 1 commentaires | Partager sur WhatsApp

La détection de tour de parole est l’une des fonctions les plus importantes dans la stack d’IA vocale : elle permet de déterminer à quel moment un agent vocal doit répondre quand une personne parle
La plupart des agents vocaux reposent sur la VAD (Voice Activity Detection) pour distinguer l’audio en segments vocaux et non vocaux, ce qui signifie que les dimensions acoustiques et linguistiques ne sont pas prises en compte
Les humains effectuent la détection de tour de parole à partir de signaux complexes comme la grammaire, l’intonation et le débit de parole
- Objectif : construire un modèle plus proche des attentes humaines qu’une approche fondée sur la VAD
Projet de développement d’un modèle open source de détection de tours de parole audio, piloté par la communauté
- Licence BSD 2-clause → tout le monde peut l’utiliser, le forker et y contribuer
- Le projet a démarré dans l’écosystème Pipecat
- Pipecat : framework open source, indépendant des fournisseurs, pour l’IA vocale et multimodale
Objectifs du projet
- Objectifs de haut niveau
  - Facile à utiliser pour tout le monde
  - Facile à déployer en production
  - Facile à fine-tuner pour des applications spécifiques
- Limites actuelles du modèle
  - Prise en charge de l’anglais uniquement
  - Vitesse d’inférence relativement lente : environ 150 ms sur GPU, environ 1500 ms sur CPU
  - Les données d’entraînement portent surtout sur des paroles inachevées en fin de segment (filler words)
- Objectifs à moyen terme
  - Prise en charge de plusieurs langues
  - Temps d’inférence : moins de 50 ms sur GPU, moins de 500 ms sur CPU
  - Intégrer des données d’entraînement couvrant un éventail plus large de nuances vocales
  - Construire un pipeline complet de génération de données synthétiques
  - Prendre en charge le conditionnement basé sur le texte (ex. : saisie de carte bancaire, numéro de téléphone, adresse, etc.)
Architecture du modèle
- Basé sur le backbone Wav2Vec2-BERT de Meta AI (nombre de paramètres : 580M)
  - Utilise des données audio non supervisées totalisant 4,5 millions d’heures dans 143 langues
- Structure actuelle du modèle :
  - Wav2Vec2-BERT → classifieur à 2 couches (classification head)
  - Utilise Wav2Vec2BertForSequenceClassification de Hugging Face
- Architectures actuellement à l’étude :
  - Tests en cours pour vérifier si un classifieur simple reste efficace à mesure que le dataset s’étend
  - Évaluation de l’introduction possible de structures plus complexes

1 commentaires

GN⁺ 2025-03-10

Avis sur Hacker News

J’ai déjà utilisé pipecat et c’était bien. Mais je suis passé à sherpa-onnx, qui peut être compilé en natif et s’exécuter sur des appareils edge
- Quand j’utilise l’application Google Traduction, il m’arrive souvent de faire une pause ou de ralentir en disant de longues phrases, donc j’évite le mode conversation
- Ce problème nécessite une détection de tour à faible latence, une détection d’interruption vocale, ainsi qu’un LLM très rapide et à très faible latence
- Il faut une bonne fonction de reprise pour que le système puisse continuer la dernière phrase sans jeter l’audio précédent
- Pour améliorer la latence d’i/o, il faut utiliser une API audio à faible latence, des buffers audio très courts, ainsi que des catégories et modes audio dédiés
- Je ne suis pas sûr qu’on puisse utiliser le TTS en mode streaming
- Un push-to-talk bien conçu pourrait être une bonne solution
Il y a eu quelques mises à jour intéressantes aujourd’hui
- Inférence à 100 ms avec CoreML
- Un modèle LSTM entraîné sur un sous-ensemble des données
J’ai trouvé la plupart des réponses dans le README. Il est bien rédigé
Je me demande s’il serait possible de partager les ressources nécessaires et le volume requis pour affiner Wav2Vec2-BERT
Je me demande ce qu’est la détection de tour
Je suis content de voir cette technologie continuer à progresser
- Des pires systèmes vocaux comme Siri jusqu’au mode vocal de ChatGPT, les ordinateurs ne font pas bien ce travail
- Cela pourrait être le plus grand obstacle pour que des « agents » accomplissent des tâches simples mais utiles
- Il y a encore beaucoup de situations où l’IA a du mal, et ces erreurs peuvent détruire l’efficacité d’une conversation ou provoquer de graves dysfonctionnements
En tant que personne diagnostiquée autiste HF, j’aimerais appliquer cette technologie à une oreillette
Après avoir examiné quelques modèles basés sur les tours, les implémentations sont très cohérentes. J’ai hâte de voir comment cette technologie va évoluer
J’aimerais que Vedal intègre cette technologie dans le modèle de Neuro-sama. Le cas d’un bot osu devenu une AI Vtuber
Je me demande si cela prend en charge plusieurs locuteurs
En train de fork

Smart-turn - modèle open source de détection de tours de parole audio

À lire aussi

1 commentaires

Avis sur Hacker News