1 points par GN⁺ 12 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Une famille de modèles d’IA vocale intégrant à la fois TTS et ASR, couvrant aussi bien la génération de voix longue durée que la reconnaissance vocale sur de longues séquences
  • L’architecture centrale combine un tokeniseur vocal continu à très faible fréquence d’images de 7,5 Hz et du next-token diffusion, afin de traiter de longues séquences tout en visant à la fois la qualité audio et l’efficacité de calcul
  • La structure utilise un LLM pour comprendre le contexte textuel et le fil de la conversation, avec une tête de diffusion ajoutée pour générer des détails acoustiques de haute fidélité
  • VibeVoice-ASR traite jusqu’à 60 minutes d’audio en un seul passage et produit une transcription structurée contenant à la fois les informations de locuteur, les horodatages et le contenu des énoncés
  • Le modèle ASR prend en charge plus de 50 langues et peut recevoir des hotwords personnalisés ou des informations de contexte afin d’améliorer la précision de reconnaissance pour des domaines spécialisés
  • Côté ASR, le code de finetuning et la prise en charge de l’inférence avec vLLM sont publiés, et le modèle peut aussi être utilisé directement dans la bibliothèque Hugging Face Transformers
  • VibeVoice-TTS peut synthétiser jusqu’à 90 minutes d’audio en un seul passage et prend en charge jusqu’à 4 locuteurs dans une même conversation
  • Le TTS met l’accent sur une voix conversationnelle expressive et la cohérence du locuteur, avec prise en charge de l’anglais, du chinois et d’autres langues
  • Selon l’annonce du dépôt, le code de VibeVoice-TTS a été retiré ; il est précisé qu’après sa publication, des usages non conformes à l’intention déclarée ont été constatés, ce qui a conduit à sa suppression du dépôt
  • VibeVoice-Realtime-0.5B est un modèle TTS temps réel de taille 0.5B, prenant en charge l’entrée de texte en streaming, une première latence audible d’environ 300 ms et la génération de voix longue durée d’environ 10 minutes
  • Le modèle Realtime ajoute des locuteurs expérimentaux multilingues dans 9 langues ainsi que 11 voix de style anglais, et indique que davantage de types de voix seront ajoutés progressivement
  • Les principales voies de distribution sont organisées autour des poids Hugging Face, d’un Playground et de Colab, ce qui permet des essais rapides
  • Ce dépôt est présenté comme étant réservé à des fins de recherche et de développement ; son usage en production ou en conditions réelles sans tests ni développement supplémentaires n’est pas recommandé
  • Les modèles peuvent hériter des biais et erreurs du modèle de base Qwen2.5 1.5b ; en raison des risques de deepfake, d’usurpation d’identité et de diffusion de fausses informations, un usage légal et responsable ainsi que la divulgation du caractère généré par l’IA sont recommandés

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.