Gemini 3.1 Flash TTS - le modèle vocal IA de nouvelle génération qui contrôle le style vocal en langage naturel
(blog.google)- Nouveau modèle de synthèse vocale lancé par Google, il offre un naturel et une expressivité améliorés par rapport aux versions précédentes et aide développeurs, entreprises et grand public à créer des applications vocales IA
- La nouvelle fonctionnalité audio tags permet d’insérer directement des commandes en langage naturel dans le texte afin de contrôler finement le style vocal, la vitesse et la manière de délivrer la parole
- Il a obtenu un score Elo de 1 211 dans le classement TTS d’Artificial Analysis, et est évalué comme une combinaison idéale entre génération vocale de haute qualité et faible coût
- Prend en charge plus de 70 langues et intègre nativement les conversations multi-locuteurs
- Tous les audios générés reçoivent un watermark SynthID, permettant une détection fiable des contenus générés par IA et la prévention de la désinformation
Lancement et canaux de disponibilité
- Gemini 3.1 Flash TTS est le dernier modèle de synthèse vocale, offrant un meilleur contrôle, une meilleure expressivité et une meilleure qualité
- Il est actuellement disponible en preview via les canaux suivants :
- Pour les développeurs : Gemini API et Google AI Studio
- Pour les entreprises : Vertex AI
- Pour les utilisateurs de Workspace : Google Vids
Qualité vocale et contrôlabilité améliorées
- La qualité vocale globale a été améliorée, ce qui en fait à ce jour le modèle le plus naturel et le plus expressif
- Il a atteint 1 211 points Elo dans le classement TTS d’Artificial Analysis, sur la base de milliers d’évaluations à l’aveugle des préférences humaines
- Artificial Analysis place Gemini 3.1 Flash TTS dans le "most attractive quadrant" comme combinaison idéale entre génération vocale de haute qualité et faible coût
- Il se distingue par les conversations multi-locuteurs natives, la prise en charge de plus de 70 langues et des fonctions de contrôle créatif fin basées sur le langage naturel
Expressivité renforcée grâce aux audio tags
- L’introduction de la nouvelle fonctionnalité audio tags permet de contrôler intuitivement le style vocal, la vitesse et la manière de délivrer la parole
- Il est possible d’insérer directement des commandes en langage naturel dans le texte saisi afin d’ajuster finement la sortie vocale IA
- Les entreprises peuvent exploiter les audio tags dans Vertex AI pour créer des applications d’entreprise de nouvelle génération
- Google AI Studio fournit des contrôles configurables qui placent les développeurs dans le "director's chair" :
- Scene direction : définit l’environnement et établit des indications de dialogue précises afin d’apporter un contexte de worldbuilding permettant aux personnages de réagir naturellement sur plusieurs tours
- Speaker-level specificity : permet d’attribuer des personnages avec un Audio Profile unique, d’ajuster le rythme, le ton et l’intonation via les Director's Notes, et de changer d’expression même au milieu d’une phrase grâce aux tags inline
- Seamless export : permet d’exporter les paramètres finalisés en code Gemini API, afin de conserver une voix cohérente sur différents projets et plateformes
- Grâce à cette configuration, les développeurs peuvent créer des personnages mémorables et des expériences audio immersives
Prise en charge à l’échelle mondiale
- Fournit une voix haute fidélité et un contrôle précis dans plus de 70 langues
- Il permet de créer des expériences vocales localisées grâce à des contrôles avancés du style, de la vitesse et de l’intonation pour les principaux marchés
- Les développeurs et entreprises ayant testé la version initiale ont particulièrement apprécié l’impressionnante contrôlabilité et expressivité de 3.1 Flash TTS
- Selon leurs retours, les audio tags offrent un nouveau niveau de précision créative et transforment un simple texte en performance vocale haute fidélité
Watermarking SynthID
- Tous les audios générés par Gemini 3.1 Flash TTS reçoivent un watermark SynthID
- Un watermark imperceptible est inséré directement dans la sortie audio, permettant une détection fiable des contenus générés par IA
- Il sert de dispositif de sécurité pour la prévention de la désinformation, et la model card fournit des informations détaillées sur la sécurité et la responsabilité
Aucun commentaire pour le moment.