Modèles audio d’OpenAI

(openai.fm)

13 points par GN⁺ 2025-03-21 | 2 commentaires | Partager sur WhatsApp

Démo interactive permettant aux développeurs d’essayer les nouveaux modèles de synthèse vocale d’OpenAI via l’API OpenAI
Il est possible de spécifier en détail par prompt les effets vocaux, le ton, le débit, les émotions, la prononciation, les pauses, etc.

Démo

Choix de voix : 11 options, dont Alloy, Ash, Ballad, Coral et Echo
Choix de différentes ambiances : Sincere, Friendly, Noir Detective, Robot, Auctioneer, etc.

Exemple : Sincere

Voice Affect: Calm, composed, and reassuring. Competent and in control, instilling trust.  
Tone: Sincere, empathetic, with genuine concern for the customer and understanding of the situation.  
Pacing: Slower during the apology to allow for clarity and processing. Faster when offering solutions to signal action and resolution.  
Emotions: Calm reassurance, empathy, and gratitude.  
Pronunciation: Clear, precise: Ensures clarity, especially with key details. Focus on key words like "refund" and "patience."   
Pauses: Before and after the apology to give space for processing the apology.

Exemple : Medieval Knight

Effet de voix : profond, autoritaire et légèrement dramatique, reflétant la grandeur des récits en vieil anglais  
Ton : noble, héroïque et formel, capturant l’essence des chevaliers médiévaux et des aventures épiques  
Émotions : un mélange d’excitation, d’anticipation, de mystère, et du sérieux du destin et du devoir  
Prononciation : claire, soignée, avec un rythme légèrement formel ; les mots comme "hast", "thou", "doth" sont prononcés lentement avec insistance, en reflétant les schémas de prononciation du vieil anglais  
Pauses : après des expressions en vieil anglais comme "Lo!" et "Hark!", ainsi qu’entre des propositions comme "Choose thy path", afin de souligner l’importance du choix et de permettre à l’auditeur de ressentir le sérieux de la quête

2 commentaires

GN⁺ 2025-03-21

Avis Hacker News

Le prix de ces modèles est nettement inférieur à celui d’ElevenLabs
- Pour le modèle gpt-4o-mini-tts, le coût est de 0,015 $ par minute d’audio, soit 85 % moins cher qu’ElevenLabs
- Le forfait « Business » d’ElevenLabs coûte 1 100 $ par mois pour 11 000 minutes de TTS, soit 10 cents par minute
- OpenAI pourrait fournir 11 000 minutes de TTS pour 165 $
- Demande de vérification du calcul
Jeff d’OpenAI annonce la sortie de nouveaux modèles audio
- Lancement de deux modèles de reconnaissance vocale et d’un nouveau modèle TTS
- Prise en charge dans l’Agents SDK pour faciliter la conversion d’agents textuels en agents vocaux
- Il invite à poser des questions si besoin
Mention de problèmes de fiabilité des modèles de synthèse vocale et de transcription vocale
- Pas certain de l’ampleur du problème dans des applications réelles
- Fournit un lien vers une note à ce sujet
Question sur la manière d’obtenir des « speech marks » avec l’audio généré
- Explication des « speech marks » utilisés dans le service TTS Polly d’AWS
- Utile pour mettre en valeur le texte et pour la synchronisation labiale
Progrès récents des grands modèles de synthèse vocale et de transcription
- Mention du besoin de solutions de synthèse vocale multilingues et hors ligne
- Estime que Tortoise TTS déforme souvent les mots
- L’Acapela SDK est la seule solution de plug-in pour applications de bureau
- Espère que les nouveaux modèles à base de réseaux de neurones fonctionneront efficacement sur des ordinateurs ordinaires
Il est possible d’obtenir des intonations et des personnalités variées selon le texte saisi dans la case « vibe »
- Le niveau d’intelligence de la prosodie et de l’intonation est impressionnant
- Le progrès est tel qu’il ne faudrait plus que des célébrités pour enregistrer des livres audio
- Fournit divers exemples de voix amusantes
Réaction lorsqu’on saisit la copypasta Navy Seal
- Les contrôles de sécurité fonctionnent différemment selon les instructions de « vibe »
- Le chauffeur de taxi new-yorkais fonctionne sans problème et c’est amusant
Impression que la voix du nouveau modèle présente une légère vibration et reste inférieure à Siri
Les outils officiels d’OpenAI sont liés à l’annonce des nouveaux modèles
Citation importante de l’annonce officielle
- Les développeurs peuvent indiquer au modèle non seulement quoi dire, mais aussi comment le dire
- Les « vibes » sont les consignes dans l’interface
- Le nouveau modèle gère mieux les nuances subtiles
- Le coût de sortie audio de gpt-4o-mini-tts, à 0,015 $ par minute, est pratique
- Prévoit d’effectuer davantage de tests

sylee999 2025-03-21

Le coréen fonctionne lui aussi parfaitement.

Modèles audio d’OpenAI

Démo

À lire aussi

2 commentaires

Avis Hacker News