- Le modèle vocal le plus performant et le plus conversationnel, capable de parler avec n’importe quelle voix ou intonation dans plus de 30 langues, avec une vitesse et une précision de premier plan dans l’industrie
- Lancement également de plus de 50 nouvelles voix d’IA conversationnelle dans plusieurs langues
- Lors de la création d’applications en temps réel avec le TTS, la latence, la fiabilité, la qualité audio et le naturel de la voix sont essentiels
Play 3.0 mini est le modèle vocal conversationnel le plus rapide à ce jour
- Play 3.0 mini atteint une latence moyenne de 189 millisecondes pour le TTFB, ce qui en fait le modèle d’AI Text to Speech le plus rapide
- Il prend en charge le streaming du texte en entrée depuis un LLM ainsi que le streaming de la sortie audio, et peut être utilisé via l’API HTTP REST, l’API WebSocket ou un SDK
- Play 3.0 mini est également plus efficace que Play 2.0, avec une vitesse d’inférence 28 % plus rapide
Play 3.0 mini prend en charge toutes les voix dans plus de 30 langues
- Play 3.0 mini prend désormais en charge nativement plus de 30 langues, avec plusieurs options de voix masculines et féminines
- Les voix en anglais, japonais, hindi, arabe, espagnol, italien, allemand, français et portugais peuvent désormais être utilisées dans des cas d’usage en production et sont disponibles via l’API et le playground
- Il est également possible de tester l’afrikaans, le bulgare, le croate, le tchèque, l’hébreu, le hongrois, l’indonésien, le malais, le mandarin, le polonais, le serbe, le suédois, le tagalog, le thaï, le turc, l’ukrainien, l’ourdou et le xhosa
Play 3.0 mini est plus précis
- L’objectif de Play 3.0 mini était de créer le meilleur modèle TTS pour l’IA conversationnelle
- Pour y parvenir, le modèle devait surpasser les modèles concurrents en latence et en précision tout en générant des voix avec le ton le plus conversationnel possible
- Les LLM hallucinent, et les LLM vocaux ne font pas exception. Dans un LLM vocal, les hallucinations peuvent prendre la forme de mots ou de chiffres supplémentaires ou manquants dans l’audio de sortie qui ne figurent pas dans le texte d’entrée
Play 3.0 mini lit plus naturellement les combinaisons de lettres et de chiffres
- Nous avons entraîné le modèle à lire les nombres et les sigles comme le ferait un humain
- Le modèle ajuste son débit et ralentit sur tous les caractères alphabétiques et numériques
- Par exemple, les numéros de téléphone sont lus à un rythme plus naturel, et il en va de même pour tous les sigles et acronymes
- Cela rend l’expérience conversationnelle globale plus naturelle
Play 3.0 mini atteint la meilleure similarité vocale pour le clonage de voix
- Lorsqu’on clone une voix, un rendu simplement proche ne suffit souvent pas
- Le clonage vocal de Play 3.0 atteint des performances de pointe et reproduit fidèlement l’intonation, le ton et l’accent de la voix clonée
- Lors d’un benchmark utilisant des modèles d’embedding open source populaires, il surpasse largement les modèles concurrents en termes de similarité avec la voix d’origine
- Essayez vous-même en clonant votre voix sur play.ai et en discutant avec elle
Prise en charge de l’API WebSocket
- L’API de Play 3.0 mini prend désormais en charge WebSocket, ce qui réduit considérablement la surcharge liée à l’ouverture et à la fermeture des connexions HTTP et facilite le streaming du texte en entrée depuis un LLM ou d’autres sources
Play 3.0 mini est un modèle économique
- Nous sommes heureux d’annoncer une baisse des prix pour les startups à plus gros volume et les offres growth, et nous introduisons désormais une nouvelle formule Pro à 49 dollars par mois pour les entreprises aux besoins plus modestes
- Consultez la nouvelle grille tarifaire ici
- Nous avons hâte de voir ce que vous allez créer avec nous ! Si vous avez des besoins personnalisés à grande échelle, veuillez contacter l’équipe commerciale
L’avis de GN+
- Les efforts de Play.ht pour développer le modèle vocal le plus fiable pour l’IA conversationnelle sont impressionnants. En surpassant ses concurrents en latence et en précision, et en produisant la voix conversationnelle la plus naturelle, ce modèle semble destiné à devenir une référence du secteur
- La prise en charge de plus de 30 langues et de multiples options vocales constitue une étape importante pour toucher davantage d’utilisateurs et de cas d’usage. Cela devrait favoriser une adoption plus large de l’IA vocale
- Cependant, des considérations éthiques doivent être gardées à l’esprit lors de l’adoption de cette technologie. Par exemple, cloner la voix d’une personne sans son consentement peut poser des problèmes de confidentialité. Cette technologie pourrait également être détournée pour diffuser de fausses informations
- Parmi les autres projets d’IA vocale notables dotés de fonctionnalités similaires figurent Tacotron de Google et WaveNet de DeepMind. Ces modèles mettent eux aussi l’accent sur la prise en charge multilingue et la génération de voix naturelles
- En conclusion, Play 3.0 mini établit une nouvelle référence pour la technologie vocale dans l’IA conversationnelle. Les développeurs pourront exploiter un TTS rapide, précis et naturel pour diverses applications en temps réel. Toutefois, de solides garde-fous et des lignes directrices éthiques devront être mis en place afin d’empêcher les abus potentiels de cette technologie
4 commentaires
Mais en allant sur Playground, je vois qu'il y a encore le coréen ?
Quoi, il prend en charge autant de langues et il n’y a même pas le coréen, bouh
Malheureusement, il semble que le coréen ne soit pas encore pris en charge T_T
Avis Hacker News