1 points par GN⁺ 2023-12-08 | 1 commentaires | Partager sur WhatsApp

Présentation du projet Mozilla Common Voice

  • Mozilla Common Voice est un projet conçu pour aider les machines à apprendre comment les vraies personnes parlent.
  • Pour rendre les technologies vocales accessibles, les développeurs ont besoin d’une très grande quantité de données vocales.
  • La plupart de ces données sont utilisées par les grandes entreprises et ne sont pas accessibles à la majorité des gens, ce qui, selon Mozilla, freine l’innovation.

État de l’enregistrement et de la validation des données vocales

  • À ce jour, 29 000 heures de voix ont été enregistrées, dont 18 000 heures validées.

Prise en charge de nombreuses langues

  • Le projet Common Voice prend en charge de nombreuses langues à travers le monde, et les utilisateurs peuvent contribuer dans leur propre langue.

Aider à construire des jeux de données ouverts de haute qualité

  • Il est possible de contribuer sans créer de profil, mais il est aussi possible d’enrichir les données soumises en fournissant des données démographiques anonymes.
  • Les informations de profil améliorent la qualité des données audio utilisées pour entraîner la précision de la reconnaissance vocale.
  • Les utilisateurs peuvent suivre leur progression et leurs statistiques dans plusieurs langues.
  • Il est possible de comparer sa progression avec celle d’autres contributeurs dans le monde.
  • Il est possible de voir l’avancement par rapport à des objectifs personnels et à ceux du projet.
  • Si on le souhaite, il est possible de s’inscrire facultativement à une liste e-mail pour recevoir des mises à jour du projet et de nouvelles informations.

L’avis de GN⁺

Le point le plus important de cet article est que Mozilla a lancé le projet Common Voice afin de fournir les vastes volumes de données vocales nécessaires aux développeurs qui veulent créer des technologies de reconnaissance vocale. Ce projet illustre les efforts de Mozilla pour stimuler l’innovation technologique et, en prenant en charge de nombreuses langues dans le monde, offre à un grand nombre de personnes l’occasion de contribuer aux avancées technologiques. Cela reflète la philosophie de Mozilla en faveur de la démocratisation de la technologie et en fait une initiative intéressante et attractive pour beaucoup de gens.

1 commentaires

 
GN⁺ 2023-12-08
Avis Hacker News
    • Le TTS de FF est un projet important pour les personnes qui veulent un système de synthèse vocale facile à utiliser. Comme il est intégré au navigateur, on peut écouter divers exemples de TTS en exécutant un code simple dans la console. Certains navigateurs permettent même de l’utiliser hors ligne, tandis que d’autres s’appuient sur un système de TTS basé sur le cloud.
    • Common Voice Android est une application utile pour celles et ceux qui souhaitent contribuer au projet. Les utilisateurs peuvent enregistrer leur voix dans les langues qu’ils parlent et valider les contributions d’autres utilisateurs. Son design est plus convivial que la version du site officiel.
    • Les jeux de données issus du crowdsourcing pourraient devenir le seul moyen de construire des modèles de base si les tribunaux décident que les pratiques d’entreprises comme OpenAI ne relèvent pas du fair use. Je ne considère pas ce scénario comme improbable.
    • Ce jeu de données est bien plus petit que ceux sur lesquels les modèles vocaux récents ont été entraînés, mais il est destiné à l’apprentissage supervisé plutôt qu’à l’auto-supervision, et reste utile pour le fine-tuning afin d’améliorer les performances d’un modèle sur une langue donnée.
    • Compte tenu des récents événements liés à l’IA et aux deepfakes, quelles garanties faut-il avant d’accepter de « donner sa voix » à un projet comme celui-ci ? Il n’est pas clair si le projet vise la reconnaissance vocale ou la génération.
    • Je me demande si Mozilla a déjà annulé un logiciel lié à la parole en texte ou l’a transféré à une autre entreprise. Ou bien était-ce autre chose ?
    • Pourquoi la fonction de synthèse vocale du mode lecture de Firefox sous Linux est-elle aussi mauvaise ? Elle est bien pire que la synthèse vocale de Stephen Hawking.
    • J’espérais qu’OpenAI serait réellement ouvert, mais c’est désormais une marionnette de Microsoft poursuivant des objectifs de profit d’entreprise. Ce projet et d’autres comme HuggingFace font plaisir à voir, et j’espère que HuggingFace ne sera pas racheté par Microsoft comme GitHub.
    • Combien de personnes ici ont une « voix de lecture » différente de leur voix de conversation habituelle ? Si la majorité des données d’entraînement sonnent « comme un script », peut-on entraîner un modèle conversationnel ?
    • Des liens vers des actualités connexes sont fournis, donnant des informations sur l’avancement du projet Mozilla Common Voice et sur l’extension du jeu de données vocales.