- Supprime le bruit de fond dans les films, podcasts, interviews, etc., et extrait proprement uniquement la voix
- Taille maximale prise en charge : 500 Mo, avec prise en charge d'audio jusqu'à 1 heure
- N'est pas conçu ni optimisé pour les voix chantées dans la musique (mais cela peut fonctionner selon le contenu)
- Une API pour le streaming en temps réel n'a pas encore été publiée, mais elle devrait arriver bientôt
- La tarification est de 1000 caractères par minute d'audio
6 commentaires
Qu’est-ce que cela veut dire ? Je ne comprends pas pourquoi on parle d’un nombre de caractères ici.
N’est-ce pas un concept similaire aux tokens ?
Comme dans GPT, où les images sont aussi comptées comme des text tokens.
En voyant les autres services proposés par l’entreprise, je comprends. On dirait que ça fonctionne selon un modèle Speech to text to Speech, donc la facturation porte sur le texte intermédiaire.
Par ailleurs, MVSep, qui propose gratuitement ou via des offres payantes la séparation des voix à l’aide de plusieurs modèles open source, met également à disposition plusieurs types de modèles de séparation voix/bruit.
https://mvsep.com
Adobe Podcast AI propose également une fonctionnalité similaire. Il semble même y avoir une version gratuite : https://podcast.adobe.com/enhance
Avec la version gratuite, j'ai eu l'impression que le coréen n'était pas vraiment optimisé..