Gemini 3.1 Flash TTS - le modèle vocal IA de nouvelle génération qui contrôle le style vocal en langage naturel

(blog.google)

3 points par GN⁺ 15 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Nouveau modèle de synthèse vocale lancé par Google, il offre un naturel et une expressivité améliorés par rapport aux versions précédentes et aide développeurs, entreprises et grand public à créer des applications vocales IA
La nouvelle fonctionnalité audio tags permet d’insérer directement des commandes en langage naturel dans le texte afin de contrôler finement le style vocal, la vitesse et la manière de délivrer la parole
Il a obtenu un score Elo de 1 211 dans le classement TTS d’Artificial Analysis, et est évalué comme une combinaison idéale entre génération vocale de haute qualité et faible coût
Prend en charge plus de 70 langues et intègre nativement les conversations multi-locuteurs
Tous les audios générés reçoivent un watermark SynthID, permettant une détection fiable des contenus générés par IA et la prévention de la désinformation

Lancement et canaux de disponibilité

Gemini 3.1 Flash TTS est le dernier modèle de synthèse vocale, offrant un meilleur contrôle, une meilleure expressivité et une meilleure qualité
Il est actuellement disponible en preview via les canaux suivants :
- Pour les développeurs : Gemini API et Google AI Studio
- Pour les entreprises : Vertex AI
- Pour les utilisateurs de Workspace : Google Vids

La qualité vocale globale a été améliorée, ce qui en fait à ce jour le modèle le plus naturel et le plus expressif
Il a atteint 1 211 points Elo dans le classement TTS d’Artificial Analysis, sur la base de milliers d’évaluations à l’aveugle des préférences humaines
Artificial Analysis place Gemini 3.1 Flash TTS dans le "most attractive quadrant" comme combinaison idéale entre génération vocale de haute qualité et faible coût
Il se distingue par les conversations multi-locuteurs natives, la prise en charge de plus de 70 langues et des fonctions de contrôle créatif fin basées sur le langage naturel

L’introduction de la nouvelle fonctionnalité audio tags permet de contrôler intuitivement le style vocal, la vitesse et la manière de délivrer la parole
Il est possible d’insérer directement des commandes en langage naturel dans le texte saisi afin d’ajuster finement la sortie vocale IA
Les entreprises peuvent exploiter les audio tags dans Vertex AI pour créer des applications d’entreprise de nouvelle génération
Google AI Studio fournit des contrôles configurables qui placent les développeurs dans le "director's chair" :
- Scene direction : définit l’environnement et établit des indications de dialogue précises afin d’apporter un contexte de worldbuilding permettant aux personnages de réagir naturellement sur plusieurs tours
- Speaker-level specificity : permet d’attribuer des personnages avec un Audio Profile unique, d’ajuster le rythme, le ton et l’intonation via les Director's Notes, et de changer d’expression même au milieu d’une phrase grâce aux tags inline
- Seamless export : permet d’exporter les paramètres finalisés en code Gemini API, afin de conserver une voix cohérente sur différents projets et plateformes
Grâce à cette configuration, les développeurs peuvent créer des personnages mémorables et des expériences audio immersives

Fournit une voix haute fidélité et un contrôle précis dans plus de 70 langues
Il permet de créer des expériences vocales localisées grâce à des contrôles avancés du style, de la vitesse et de l’intonation pour les principaux marchés
Les développeurs et entreprises ayant testé la version initiale ont particulièrement apprécié l’impressionnante contrôlabilité et expressivité de 3.1 Flash TTS
- Selon leurs retours, les audio tags offrent un nouveau niveau de précision créative et transforment un simple texte en performance vocale haute fidélité

Tous les audios générés par Gemini 3.1 Flash TTS reçoivent un watermark SynthID
Un watermark imperceptible est inséré directement dans la sortie audio, permettant une détection fiable des contenus générés par IA
Il sert de dispositif de sécurité pour la prévention de la désinformation, et la model card fournit des informations détaillées sur la sécurité et la responsabilité