Présentation de Play 3.0 Mini - un modèle Text-To-Speech multilingue léger et économique

Le modèle vocal le plus performant et le plus conversationnel, capable de parler avec n’importe quelle voix ou intonation dans plus de 30 langues, avec une vitesse et une précision de premier plan dans l’industrie
- Lancement également de plus de 50 nouvelles voix d’IA conversationnelle dans plusieurs langues
Lors de la création d’applications en temps réel avec le TTS, la latence, la fiabilité, la qualité audio et le naturel de la voix sont essentiels

Play 3.0 mini est le modèle vocal conversationnel le plus rapide à ce jour

Play 3.0 mini atteint une latence moyenne de 189 millisecondes pour le TTFB, ce qui en fait le modèle d’AI Text to Speech le plus rapide
Il prend en charge le streaming du texte en entrée depuis un LLM ainsi que le streaming de la sortie audio, et peut être utilisé via l’API HTTP REST, l’API WebSocket ou un SDK
Play 3.0 mini est également plus efficace que Play 2.0, avec une vitesse d’inférence 28 % plus rapide

Play 3.0 mini prend en charge toutes les voix dans plus de 30 langues

Play 3.0 mini prend désormais en charge nativement plus de 30 langues, avec plusieurs options de voix masculines et féminines
Les voix en anglais, japonais, hindi, arabe, espagnol, italien, allemand, français et portugais peuvent désormais être utilisées dans des cas d’usage en production et sont disponibles via l’API et le playground
Il est également possible de tester l’afrikaans, le bulgare, le croate, le tchèque, l’hébreu, le hongrois, l’indonésien, le malais, le mandarin, le polonais, le serbe, le suédois, le tagalog, le thaï, le turc, l’ukrainien, l’ourdou et le xhosa

Play 3.0 mini est plus précis

L’objectif de Play 3.0 mini était de créer le meilleur modèle TTS pour l’IA conversationnelle
Pour y parvenir, le modèle devait surpasser les modèles concurrents en latence et en précision tout en générant des voix avec le ton le plus conversationnel possible
Les LLM hallucinent, et les LLM vocaux ne font pas exception. Dans un LLM vocal, les hallucinations peuvent prendre la forme de mots ou de chiffres supplémentaires ou manquants dans l’audio de sortie qui ne figurent pas dans le texte d’entrée

Play 3.0 mini lit plus naturellement les combinaisons de lettres et de chiffres

Nous avons entraîné le modèle à lire les nombres et les sigles comme le ferait un humain
Le modèle ajuste son débit et ralentit sur tous les caractères alphabétiques et numériques
Par exemple, les numéros de téléphone sont lus à un rythme plus naturel, et il en va de même pour tous les sigles et acronymes
Cela rend l’expérience conversationnelle globale plus naturelle

Play 3.0 mini atteint la meilleure similarité vocale pour le clonage de voix

Lorsqu’on clone une voix, un rendu simplement proche ne suffit souvent pas
Le clonage vocal de Play 3.0 atteint des performances de pointe et reproduit fidèlement l’intonation, le ton et l’accent de la voix clonée
Lors d’un benchmark utilisant des modèles d’embedding open source populaires, il surpasse largement les modèles concurrents en termes de similarité avec la voix d’origine
Essayez vous-même en clonant votre voix sur play.ai et en discutant avec elle

Prise en charge de l’API WebSocket

L’API de Play 3.0 mini prend désormais en charge WebSocket, ce qui réduit considérablement la surcharge liée à l’ouverture et à la fermeture des connexions HTTP et facilite le streaming du texte en entrée depuis un LLM ou d’autres sources

Play 3.0 mini est un modèle économique

Nous sommes heureux d’annoncer une baisse des prix pour les startups à plus gros volume et les offres growth, et nous introduisons désormais une nouvelle formule Pro à 49 dollars par mois pour les entreprises aux besoins plus modestes
Consultez la nouvelle grille tarifaire ici
Nous avons hâte de voir ce que vous allez créer avec nous ! Si vous avez des besoins personnalisés à grande échelle, veuillez contacter l’équipe commerciale

L’avis de GN+

Les efforts de Play.ht pour développer le modèle vocal le plus fiable pour l’IA conversationnelle sont impressionnants. En surpassant ses concurrents en latence et en précision, et en produisant la voix conversationnelle la plus naturelle, ce modèle semble destiné à devenir une référence du secteur
La prise en charge de plus de 30 langues et de multiples options vocales constitue une étape importante pour toucher davantage d’utilisateurs et de cas d’usage. Cela devrait favoriser une adoption plus large de l’IA vocale
Cependant, des considérations éthiques doivent être gardées à l’esprit lors de l’adoption de cette technologie. Par exemple, cloner la voix d’une personne sans son consentement peut poser des problèmes de confidentialité. Cette technologie pourrait également être détournée pour diffuser de fausses informations
Parmi les autres projets d’IA vocale notables dotés de fonctionnalités similaires figurent Tacotron de Google et WaveNet de DeepMind. Ces modèles mettent eux aussi l’accent sur la prise en charge multilingue et la génération de voix naturelles
En conclusion, Play 3.0 mini établit une nouvelle référence pour la technologie vocale dans l’IA conversationnelle. Les développeurs pourront exploiter un TTS rapide, précis et naturel pour diverses applications en temps réel. Toutefois, de solides garde-fous et des lignes directrices éthiques devront être mis en place afin d’empêcher les abus potentiels de cette technologie

Présentation de Play 3.0 Mini - un modèle Text-To-Speech multilingue léger et économique

Play 3.0 mini est le modèle vocal conversationnel le plus rapide à ce jour

Play 3.0 mini prend en charge toutes les voix dans plus de 30 langues

Play 3.0 mini est plus précis

Play 3.0 mini lit plus naturellement les combinaisons de lettres et de chiffres

Play 3.0 mini atteint la meilleure similarité vocale pour le clonage de voix

Prise en charge de l’API WebSocket

Play 3.0 mini est un modèle économique

L’avis de GN+

4 commentaires

Avis Hacker News

Présentation de Play 3.0 Mini - un modèle Text-To-Speech multilingue léger et économique

Play 3.0 mini est le modèle vocal conversationnel le plus rapide à ce jour

Play 3.0 mini prend en charge toutes les voix dans plus de 30 langues

Play 3.0 mini est plus précis

Play 3.0 mini lit plus naturellement les combinaisons de lettres et de chiffres

Play 3.0 mini atteint la meilleure similarité vocale pour le clonage de voix

Prise en charge de l’API WebSocket

Play 3.0 mini est un modèle économique

L’avis de GN+

À lire aussi

4 commentaires

Avis Hacker News