Mozilla Common Voice, une plateforme de jeux de données vocaux fondée sur la communauté

(commonvoice.mozilla.org)

1 points par GN⁺ 2023-12-08 | 1 commentaires | Partager sur WhatsApp

Mozilla Common Voice est une plateforme open source gratuite où la communauté crée et partage directement des jeux de données textuels et vocaux, afin de rendre les technologies vocales utilisables dans davantage de langues
Les contributeurs peuvent participer aux données Scripted Speech, Spontaneous Speech et Language Text en lisant des phrases, en validant des lectures, en répondant à des questions, en transcrivant de la parole et en ajoutant du texte
La plateforme prend en charge les communautés de plus de 290 langues, et des jeux de données vocaux publics sont disponibles dans plus de 130 langues
Les jeux de données peuvent être utilisés pour l'ASR, le STT, le TTS et d'autres usages NLP, et les nouvelles versions peuvent être téléchargées depuis Mozilla Data Collective
Les membres de Mozilla Data Collective peuvent accéder à plus de 500 jeux de données mondiaux créés et utilisés par la communauté, ce qui en fait désormais le centre de gravité pour l'accès et le partage des données linguistiques

Ce que Common Voice cherche à résoudre

Mozilla Common Voice est une plateforme de création de données pilotée par la communauté
Chacun peut partager, créer et curatoriser des jeux de données textuels et vocaux pour préserver, revitaliser et développer sa langue
L'objectif est que l'IA ne fonctionne pas seulement pour quelques langues, en permettant aux personnes de créer elles-mêmes les jeux de données linguistiques dont elles ont besoin
Common Voice est animé par des communautés du monde entier et continue de s'étendre à plus de 290 langues

Modes de contribution et usages des jeux de données

Scripted Speech
- Les utilisateurs contribuent à un jeu de données participatif public de voix dans leur langue via la lecture de phrases
- D'autres utilisateurs peuvent valider les lectures dans Validate Readings
Spontaneous Speech
- Les utilisateurs répondent à des prompts pour créer des jeux de données dans un contexte naturel et conversationnel
- Cette approche peut être particulièrement adaptée aux langues à tradition orale
- Il est possible de participer à la transcription via Transcribe answers et les fonctions de relecture
Language Text
- Il est possible de créer ou partager des prompts, phrases et textes du domaine public
- Ces données peuvent être utilisées pour la traduction, les petits modèles de langue et d'autres usages
- Les nouvelles versions sont publiées sur Mozilla Data Collective, où l'inscription donne accès à plus de 500 jeux de données mondiaux
- Dans Explore datasets, on peut consulter des jeux de données vocaux publics dans plus de 130 langues, utilisés pour l'ASR, le STT, le TTS et d'autres contextes NLP
- Les partenaires se répartissent entre société civile et chercheurs, entreprises technologiques et organisations philanthropiques
- La société civile et les chercheurs peuvent créer, héberger et partager gratuitement des jeux de données à fort impact
- Les entreprises technologiques peuvent investir dans la création de jeux de données ouverts pour un écosystème IA multilingue
- Les organisations philanthropiques peuvent soutenir la création de jeux de données pour l'innovation et le développement locaux

1 commentaires

GN⁺ 2023-12-08

Avis sur Hacker News

Le TTS de Firefox est un projet important pour les personnes qui ont besoin d’un système de synthèse vocale simple à utiliser
Comme il est intégré au navigateur, il suffit d’exécuter window.speechSynthesis et SpeechSynthesisUtterance dans la console pour écouter immédiatement plusieurs exemples de voix
Selon le navigateur, cela peut fonctionner hors ligne ou utiliser un TTS basé sur le cloud
- Sur macOS, on peut le faire avec say "enter text here", et pour choisir une autre voix say -v Fred "enter text here", tandis que la liste des voix s’affiche avec say -v "?"
  Les guillemets sont nécessaires pour éviter que ? ne soit interprété comme un glob par ZSH
  Même si le TTS de Firefox est important, je n’en avais même jamais entendu parler avant ce commentaire, et ce type de fonctionnalité devrait être plus facile à découvrir, avec une API plus accessible
- speechSynthesis semble être pris en charge non seulement par Firefox, mais aussi par les principaux navigateurs : https://developer.mozilla.org/en-US/docs/Web/API/Window/spee...
- J’ai essayé Common Voice il y a quelques jours, et j’ai trouvé très bonne la page communautaire d’exemple pour les personnes qui veulent aider une langue en particulier
  Je me disais déjà que Firefox était redevenu suffisamment rapide pour que j’y revienne, et si l’on pense qu’un navigateur indépendant qui met l’accent sur la confidentialité, la sécurité et l’indépendance est important, même ceux qui changent facilement de navigateur devraient essayer Firefox
  Je suis aussi content de pouvoir réutiliser quelques extensions Firefox qui ne fonctionnaient pas de la même manière sur les navigateurs basés sur Chrome
- Pour le débogage, j’ai fait en sorte que les messages importants à ne pas manquer soient lus à voix haute, en plus d’être envoyés sur stderr, via les voix TTS gratuites de Windows lancées en PowerShell ou appelées depuis Chrome par WebSocket, et c’était plutôt amusant
  Avoir davantage de voix parmi lesquelles choisir est une bonne chose
- Je me demande si cela a déjà été séparé en bibliothèque indépendante
  L’état de l’open source dans le TTS n’a pas l’air très bon, et les données nécessaires pour une seule voix semblent probablement plus difficiles à réunir que pour entraîner un système de reconnaissance vocale comme Whisper
Common Voice Android mérite aussi d’être recommandé : https://github.com/Sav22999/common-voice-android
C’est une application pratique pour ceux qui veulent contribuer au projet, et elle permet d’enregistrer sa voix dans les langues que l’on parle ou de valider les contributions d’autres utilisateurs
J’y ai contribué souvent il y a environ deux ans, et l’interface était bien plus agréable à utiliser que le site officiel
Il existe aussi un canal Matrix officiel de Common Voice : https://chat.mozilla.org/#/room/#common-voice:mozilla.org
Quand on voit les progrès récents de l’IA et des deepfakes, il faudrait tout de même certaines garanties avant de « donner sa voix » dans ce genre d’initiative
Ce projet semble destiné à la reconnaissance vocale plutôt qu’à la génération de voix, mais ce n’est pas évident au premier regard
- Je ne sais pas si « garanties » est exactement le bon terme, mais dans l’univers du machine learning et des modèles génératifs, le respect du patrimoine des gens semble assez relâché, donc l’expression « donner sa voix » me dérange
  Mozilla est sans doute une organisation appropriée pour cela, mais son produit principal est en déclin, et si l’organisation disparaît, on ne sait pas ce qu’il adviendra de ces données
  Les organisations en train de mourir ont tendance à être vendues par morceaux, et ces données pourraient devenir une propriété intellectuelle intéressante pour de nombreuses entreprises aux objectifs bien moins nobles
- Je serais curieux de savoir quelles garanties tu aimerais voir
Ce type de dataset participatif, ainsi que le dataset créé par le projet OpenAssistant, pourrait devenir presque la seule façon de construire des modèles de base si les tribunaux jugeaient que les pratiques d’entreprises comme OpenAI ne relèvent pas du fair use
Je ne considère pas ce scénario comme particulièrement improbable
Ce dataset est plusieurs ordres de grandeur plus petit que les données d’entraînement utilisées par des modèles vocaux récents comme Whisper ou Seamless, et il est destiné à l’apprentissage supervisé plutôt qu’à l’apprentissage auto-supervisé, plus riche en données, mais il peut tout de même rester utile
Il peut servir à affiner des modèles existants pour obtenir de meilleurs scores sur une langue donnée
Il me semble que Mozilla avait autrefois aussi un logiciel de reconnaissance vocale lié à cela, avant de l’abandonner ou de le transférer à une autre entreprise
- Tu parles de DeepSpeech ? https://github.com/mozilla/DeepSpeech
- Ici, il s’agit d’un dataset public d’échantillons vocaux pour l’entraînement de modèles, donc ce n’est pas, à proprement parler, un logiciel de reconnaissance vocale ou de TTS
Impressionnant
L’une des choses que j’attendais d’OpenAI, c’était qu’il devienne réellement une organisation ouverte
J’espérais des datasets ouverts, du code ouvert, des modèles ouverts et des évaluations ouvertes, mais c’est désormais devenu une marionnette de Microsoft qui avance selon des objectifs de profit d’entreprise
Des projets comme celui-ci et HuggingFace font plaisir à voir, et j’espère que HuggingFace ne sera pas racheté par Microsoft comme GitHub
Du coup, je ne comprends pas pourquoi le text2speech du mode lecture de Firefox sur Linux est aussi mauvais
Le mode lecture lui-même est excellent, mais la qualité de la voix est bien pire que la synthèse vocale de Stephen Hawking
Articles HN liés :
Mozilla Common Voice Adds 16 New Languages and 4,600 New Hours of Speech - https://news.ycombinator.com/item?id=28073016 - août 2021, 170 commentaires
Firefox Voice - https://news.ycombinator.com/item?id=24096082 - août 2020, 154 commentaires
Firefox Voice: Browse the web with your voice - https://news.ycombinator.com/item?id=23902560 - juillet 2020, 2 commentaires
Mozilla Common Voice Dataset: More data, more languages - https://news.ycombinator.com/item?id=23695377 - juin 2020, 41 commentaires
The Common Voice Project by Mozilla reached its first goal: 1k hours in englisch - https://news.ycombinator.com/item?id=23051756 - mai 2020, 1 commentaire
Common Voice: A Massively-Multilingual Speech Corpus - https://news.ycombinator.com/item?id=21887693 - décembre 2019, 9 commentaires
Common Voice – Mozilla's initiative to help teach machines how real people speak - https://news.ycombinator.com/item?id=21268579 - octobre 2019, 49 commentaires
Mozilla releases the largest to-date public domain transcribed voice dataset - https://news.ycombinator.com/item?id=19270646 - février 2019, 61 commentaires
Mozilla Overhauls Speech-To-Text Contribution Interface - https://news.ycombinator.com/item?id=17436958 - juillet 2018, 42 commentaires
Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Data - https://news.ycombinator.com/item?id=15808124 - novembre 2017, 88 commentaires
Project Common Voice - https://news.ycombinator.com/item?id=14794654 - juillet 2017, 57 commentaires
Mozilla: Project Common Voice - https://news.ycombinator.com/item?id=14786881 - juillet 2017, 1 commentaire
Je me demande combien de personnes ont une voix différente entre leur voix de conversation habituelle et leur voix de lecture
Si une grande partie des données d'entraînement correspond à une voix de « lecture de script », est-ce qu'un modèle conversationnel peut vraiment être correctement entraîné ?
- Quand l'équipe de Mozilla Common Voice a demandé des retours avant de démarrer, j'ai soulevé ce problème et proposé une autre approche consistant à collecter des données vocales conversationnelles, mais elle n'a pas été retenue
  L'idée qu'il vaut mieux avoir beaucoup de données médiocres que peu de données, mais adaptées au vrai problème à résoudre, est assez largement répandue

Mozilla Common Voice, une plateforme de jeux de données vocaux fondée sur la communauté

Ce que Common Voice cherche à résoudre

Modes de contribution et usages des jeux de données

Scripted Speech

Spontaneous Speech

Language Text

À lire aussi

1 commentaires

Avis sur Hacker News