23 points par GN⁺ 2024-11-03 | 4 commentaires | Partager sur WhatsApp
  • Le modèle vocal le plus performant et le plus conversationnel, capable de parler avec n’importe quelle voix ou intonation dans plus de 30 langues, avec une vitesse et une précision de premier plan dans l’industrie
    • Lancement également de plus de 50 nouvelles voix d’IA conversationnelle dans plusieurs langues
  • Lors de la création d’applications en temps réel avec le TTS, la latence, la fiabilité, la qualité audio et le naturel de la voix sont essentiels

Play 3.0 mini est le modèle vocal conversationnel le plus rapide à ce jour

  • Play 3.0 mini atteint une latence moyenne de 189 millisecondes pour le TTFB, ce qui en fait le modèle d’AI Text to Speech le plus rapide
  • Il prend en charge le streaming du texte en entrée depuis un LLM ainsi que le streaming de la sortie audio, et peut être utilisé via l’API HTTP REST, l’API WebSocket ou un SDK
  • Play 3.0 mini est également plus efficace que Play 2.0, avec une vitesse d’inférence 28 % plus rapide

Play 3.0 mini prend en charge toutes les voix dans plus de 30 langues

  • Play 3.0 mini prend désormais en charge nativement plus de 30 langues, avec plusieurs options de voix masculines et féminines
  • Les voix en anglais, japonais, hindi, arabe, espagnol, italien, allemand, français et portugais peuvent désormais être utilisées dans des cas d’usage en production et sont disponibles via l’API et le playground
  • Il est également possible de tester l’afrikaans, le bulgare, le croate, le tchèque, l’hébreu, le hongrois, l’indonésien, le malais, le mandarin, le polonais, le serbe, le suédois, le tagalog, le thaï, le turc, l’ukrainien, l’ourdou et le xhosa

Play 3.0 mini est plus précis

  • L’objectif de Play 3.0 mini était de créer le meilleur modèle TTS pour l’IA conversationnelle
  • Pour y parvenir, le modèle devait surpasser les modèles concurrents en latence et en précision tout en générant des voix avec le ton le plus conversationnel possible
  • Les LLM hallucinent, et les LLM vocaux ne font pas exception. Dans un LLM vocal, les hallucinations peuvent prendre la forme de mots ou de chiffres supplémentaires ou manquants dans l’audio de sortie qui ne figurent pas dans le texte d’entrée

Play 3.0 mini lit plus naturellement les combinaisons de lettres et de chiffres

  • Nous avons entraîné le modèle à lire les nombres et les sigles comme le ferait un humain
  • Le modèle ajuste son débit et ralentit sur tous les caractères alphabétiques et numériques
  • Par exemple, les numéros de téléphone sont lus à un rythme plus naturel, et il en va de même pour tous les sigles et acronymes
  • Cela rend l’expérience conversationnelle globale plus naturelle

Play 3.0 mini atteint la meilleure similarité vocale pour le clonage de voix

  • Lorsqu’on clone une voix, un rendu simplement proche ne suffit souvent pas
  • Le clonage vocal de Play 3.0 atteint des performances de pointe et reproduit fidèlement l’intonation, le ton et l’accent de la voix clonée
  • Lors d’un benchmark utilisant des modèles d’embedding open source populaires, il surpasse largement les modèles concurrents en termes de similarité avec la voix d’origine
  • Essayez vous-même en clonant votre voix sur play.ai et en discutant avec elle

Prise en charge de l’API WebSocket

  • L’API de Play 3.0 mini prend désormais en charge WebSocket, ce qui réduit considérablement la surcharge liée à l’ouverture et à la fermeture des connexions HTTP et facilite le streaming du texte en entrée depuis un LLM ou d’autres sources

Play 3.0 mini est un modèle économique

  • Nous sommes heureux d’annoncer une baisse des prix pour les startups à plus gros volume et les offres growth, et nous introduisons désormais une nouvelle formule Pro à 49 dollars par mois pour les entreprises aux besoins plus modestes
  • Consultez la nouvelle grille tarifaire ici
  • Nous avons hâte de voir ce que vous allez créer avec nous ! Si vous avez des besoins personnalisés à grande échelle, veuillez contacter l’équipe commerciale

L’avis de GN+

  • Les efforts de Play.ht pour développer le modèle vocal le plus fiable pour l’IA conversationnelle sont impressionnants. En surpassant ses concurrents en latence et en précision, et en produisant la voix conversationnelle la plus naturelle, ce modèle semble destiné à devenir une référence du secteur
  • La prise en charge de plus de 30 langues et de multiples options vocales constitue une étape importante pour toucher davantage d’utilisateurs et de cas d’usage. Cela devrait favoriser une adoption plus large de l’IA vocale
  • Cependant, des considérations éthiques doivent être gardées à l’esprit lors de l’adoption de cette technologie. Par exemple, cloner la voix d’une personne sans son consentement peut poser des problèmes de confidentialité. Cette technologie pourrait également être détournée pour diffuser de fausses informations
  • Parmi les autres projets d’IA vocale notables dotés de fonctionnalités similaires figurent Tacotron de Google et WaveNet de DeepMind. Ces modèles mettent eux aussi l’accent sur la prise en charge multilingue et la génération de voix naturelles
  • En conclusion, Play 3.0 mini établit une nouvelle référence pour la technologie vocale dans l’IA conversationnelle. Les développeurs pourront exploiter un TTS rapide, précis et naturel pour diverses applications en temps réel. Toutefois, de solides garde-fous et des lignes directrices éthiques devront être mis en place afin d’empêcher les abus potentiels de cette technologie

4 commentaires

 
dane1 2024-11-04

Mais en allant sur Playground, je vois qu'il y a encore le coréen ?

 
dane1 2024-11-04

Quoi, il prend en charge autant de langues et il n’y a même pas le coréen, bouh

 
hmmhmmhm 2024-11-03

Malheureusement, il semble que le coréen ne soit pas encore pris en charge T_T

 
GN⁺ 2024-11-03

Avis Hacker News

  • Un modèle TTS open source récemment lancé offre d’excellentes capacités de clonage vocal. Il peut fonctionner sur un GPU NVIDIA avec 10 Go de VRAM.
  • Le test en direct ne fonctionnait pas dans Firefox, mais après être passé à Chrome, cela a marché rapidement. En 30 secondes, il a été possible de cloner sa propre voix et de converser avec elle. Le rendu est suffisamment sophistiqué pour tromper la plupart des gens.
  • Ce modèle coûte plus cher que les API TTS de Cartesia et OpenAI. En général, les API TTS sont exploitées avec des marges plus élevées que les LLM.
  • Pour les langues autres que l’anglais, la transcription n’est pas utile. Si elle est précise, la traduction et la réponse vocale sont très rapides, mais si la transcription est mauvaise, cela ne sert à rien.
  • Des clients API pour Go et Rust ont été écrits pendant l’été. À l’époque, Play était utilisé au travail, mais seuls des SDK Python et Node existaient.
  • Une conversation à faible latence avec une voix qui ressemble à la sienne peut provoquer un certain malaise. Cela reste cependant une expérience très stimulante intellectuellement.
  • La voix clonée paraissait très similaire, mais lors d’un test à l’aveugle, aucune des 5 personnes n’a reconnu qu’il s’agissait de sa propre voix. Cela soulève la question d’un éventuel biais lorsqu’on écoute sa propre voix.
  • Le modèle d’OpenAI n’est pas performant pour la prononciation des nombres. Il est choquant qu’un modèle TTS sorti en 2024 ne sache pas prononcer correctement les nombres. On estime qu’un nouveau modèle TTS devrait au minimum être validé jusqu’à 100,000.