VibeVoice - l’avant-garde open source de l’IA vocale

(github.com/microsoft)

1 points par GN⁺ 12 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Une famille de modèles d’IA vocale intégrant à la fois TTS et ASR, couvrant aussi bien la génération de voix longue durée que la reconnaissance vocale sur de longues séquences
L’architecture centrale combine un tokeniseur vocal continu à très faible fréquence d’images de 7,5 Hz et du next-token diffusion, afin de traiter de longues séquences tout en visant à la fois la qualité audio et l’efficacité de calcul
La structure utilise un LLM pour comprendre le contexte textuel et le fil de la conversation, avec une tête de diffusion ajoutée pour générer des détails acoustiques de haute fidélité
VibeVoice-ASR traite jusqu’à 60 minutes d’audio en un seul passage et produit une transcription structurée contenant à la fois les informations de locuteur, les horodatages et le contenu des énoncés
Le modèle ASR prend en charge plus de 50 langues et peut recevoir des hotwords personnalisés ou des informations de contexte afin d’améliorer la précision de reconnaissance pour des domaines spécialisés
Côté ASR, le code de finetuning et la prise en charge de l’inférence avec vLLM sont publiés, et le modèle peut aussi être utilisé directement dans la bibliothèque Hugging Face Transformers
VibeVoice-TTS peut synthétiser jusqu’à 90 minutes d’audio en un seul passage et prend en charge jusqu’à 4 locuteurs dans une même conversation
Le TTS met l’accent sur une voix conversationnelle expressive et la cohérence du locuteur, avec prise en charge de l’anglais, du chinois et d’autres langues
Selon l’annonce du dépôt, le code de VibeVoice-TTS a été retiré ; il est précisé qu’après sa publication, des usages non conformes à l’intention déclarée ont été constatés, ce qui a conduit à sa suppression du dépôt
VibeVoice-Realtime-0.5B est un modèle TTS temps réel de taille 0.5B, prenant en charge l’entrée de texte en streaming, une première latence audible d’environ 300 ms et la génération de voix longue durée d’environ 10 minutes
Le modèle Realtime ajoute des locuteurs expérimentaux multilingues dans 9 langues ainsi que 11 voix de style anglais, et indique que davantage de types de voix seront ajoutés progressivement
Les principales voies de distribution sont organisées autour des poids Hugging Face, d’un Playground et de Colab, ce qui permet des essais rapides
Ce dépôt est présenté comme étant réservé à des fins de recherche et de développement ; son usage en production ou en conditions réelles sans tests ni développement supplémentaires n’est pas recommandé
Les modèles peuvent hériter des biais et erreurs du modèle de base Qwen2.5 1.5b ; en raison des risques de deepfake, d’usurpation d’identité et de diffusion de fausses informations, un usage légal et responsable ainsi que la divulgation du caractère généré par l’IA sont recommandés

VibeVoice - l’avant-garde open source de l’IA vocale

À lire aussi

Aucun commentaire pour le moment.