13 points par GN⁺ 2025-03-21 | 2 commentaires | Partager sur WhatsApp
  • Démo interactive permettant aux développeurs d’essayer les nouveaux modèles de synthèse vocale d’OpenAI via l’API OpenAI
  • Il est possible de spécifier en détail par prompt les effets vocaux, le ton, le débit, les émotions, la prononciation, les pauses, etc.

Démo

  • Choix de voix : 11 options, dont Alloy, Ash, Ballad, Coral et Echo
  • Choix de différentes ambiances : Sincere, Friendly, Noir Detective, Robot, Auctioneer, etc.
  • Exemple : Sincere
    Voice Affect: Calm, composed, and reassuring. Competent and in control, instilling trust.  
    Tone: Sincere, empathetic, with genuine concern for the customer and understanding of the situation.  
    Pacing: Slower during the apology to allow for clarity and processing. Faster when offering solutions to signal action and resolution.  
    Emotions: Calm reassurance, empathy, and gratitude.  
    Pronunciation: Clear, precise: Ensures clarity, especially with key details. Focus on key words like "refund" and "patience."   
    Pauses: Before and after the apology to give space for processing the apology.  
    
  • Exemple : Medieval Knight
    Effet de voix : profond, autoritaire et légèrement dramatique, reflétant la grandeur des récits en vieil anglais  
    Ton : noble, héroïque et formel, capturant l’essence des chevaliers médiévaux et des aventures épiques  
    Émotions : un mélange d’excitation, d’anticipation, de mystère, et du sérieux du destin et du devoir  
    Prononciation : claire, soignée, avec un rythme légèrement formel ; les mots comme "hast", "thou", "doth" sont prononcés lentement avec insistance, en reflétant les schémas de prononciation du vieil anglais  
    Pauses : après des expressions en vieil anglais comme "Lo!" et "Hark!", ainsi qu’entre des propositions comme "Choose thy path", afin de souligner l’importance du choix et de permettre à l’auditeur de ressentir le sérieux de la quête  
    

2 commentaires

 
GN⁺ 2025-03-21
Avis Hacker News
  • Le prix de ces modèles est nettement inférieur à celui d’ElevenLabs

    • Pour le modèle gpt-4o-mini-tts, le coût est de 0,015 $ par minute d’audio, soit 85 % moins cher qu’ElevenLabs
    • Le forfait « Business » d’ElevenLabs coûte 1 100 $ par mois pour 11 000 minutes de TTS, soit 10 cents par minute
    • OpenAI pourrait fournir 11 000 minutes de TTS pour 165 $
    • Demande de vérification du calcul
  • Jeff d’OpenAI annonce la sortie de nouveaux modèles audio

    • Lancement de deux modèles de reconnaissance vocale et d’un nouveau modèle TTS
    • Prise en charge dans l’Agents SDK pour faciliter la conversion d’agents textuels en agents vocaux
    • Il invite à poser des questions si besoin
  • Mention de problèmes de fiabilité des modèles de synthèse vocale et de transcription vocale

    • Pas certain de l’ampleur du problème dans des applications réelles
    • Fournit un lien vers une note à ce sujet
  • Question sur la manière d’obtenir des « speech marks » avec l’audio généré

    • Explication des « speech marks » utilisés dans le service TTS Polly d’AWS
    • Utile pour mettre en valeur le texte et pour la synchronisation labiale
  • Progrès récents des grands modèles de synthèse vocale et de transcription

    • Mention du besoin de solutions de synthèse vocale multilingues et hors ligne
    • Estime que Tortoise TTS déforme souvent les mots
    • L’Acapela SDK est la seule solution de plug-in pour applications de bureau
    • Espère que les nouveaux modèles à base de réseaux de neurones fonctionneront efficacement sur des ordinateurs ordinaires
  • Il est possible d’obtenir des intonations et des personnalités variées selon le texte saisi dans la case « vibe »

    • Le niveau d’intelligence de la prosodie et de l’intonation est impressionnant
    • Le progrès est tel qu’il ne faudrait plus que des célébrités pour enregistrer des livres audio
    • Fournit divers exemples de voix amusantes
  • Réaction lorsqu’on saisit la copypasta Navy Seal

    • Les contrôles de sécurité fonctionnent différemment selon les instructions de « vibe »
    • Le chauffeur de taxi new-yorkais fonctionne sans problème et c’est amusant
  • Impression que la voix du nouveau modèle présente une légère vibration et reste inférieure à Siri

  • Les outils officiels d’OpenAI sont liés à l’annonce des nouveaux modèles

  • Citation importante de l’annonce officielle

    • Les développeurs peuvent indiquer au modèle non seulement quoi dire, mais aussi comment le dire
    • Les « vibes » sont les consignes dans l’interface
    • Le nouveau modèle gère mieux les nuances subtiles
    • Le coût de sortie audio de gpt-4o-mini-tts, à 0,015 $ par minute, est pratique
    • Prévoit d’effectuer davantage de tests
 
sylee999 2025-03-21

Le coréen fonctionne lui aussi parfaitement.