J’ai créé un modèle entraîné avec 9M de paramètres pour corriger les tons du chinois

(simedw.com)

1 points par GN⁺ 2026-02-01 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Pour aider à pratiquer la prononciation et les tons du chinois, j’ai créé moi-même un modèle vocal basé sur CTC de 9M de paramètres, entraîné sur environ 300 heures de données vocales
Il utilise une architecture d’encodeur Conformer pour capturer à la fois les caractéristiques vocales locales et le contexte global, avec une tokenisation en unités Pinyin+ton qui distingue clairement les erreurs de prononciation
Grâce à la perte CTC, le modèle évalue image par image ce que l’utilisateur a réellement prononcé, et effectue l’alignement temporel avec l’algorithme de Viterbi
Même en réduisant la taille du modèle de 75M à 9M, il n’y a eu presque aucune perte de précision ; après quantification INT8, il ne pèse plus qu’environ 11 Mo et peut s’exécuter immédiatement dans un navigateur web
La démo dans le navigateur montre le potentiel d’un système de correction de prononciation on-device, et l’amélioration de la qualité des données sera la clé des progrès futurs

Vue d’ensemble du modèle d’évaluation de la prononciation

Pour répondre à la difficulté de l’apprentissage de la prononciation chinoise, j’ai entraîné moi-même un petit modèle vocal qui note la prononciation
- En utilisant environ 300 heures de données vocales transcrites (AISHELL-1, Primewords)
- Fourni sous une forme exécutable directement dans le navigateur
Les méthodes de visualisation de la hauteur existantes étaient instables à cause du bruit, des différences d’élocution, etc., et une approche fondée sur les données s’est révélée plus efficace
L’objectif est d’implémenter un système Computer-Assisted Pronunciation Training (CAPT) on-device sans API commerciale

Adoption d’une architecture encodeur Conformer + perte CTC
- Le CNN capte les caractéristiques acoustiques de très courte durée (ex. : zh vs z)
- Le Transformer traite les schémas tonals contextuels (ex. : tone sandhi)
La méthode CTC produit une distribution de probabilité par image afin d’évaluer directement les phonèmes réellement prononcés
- Le token `` est utilisé pour aligner les répétitions et les espaces
- Le contenu réellement prononcé est reflété tel quel, sans correction automatique

Chaque combinaison Pinyin+ton est définie comme un token unique
- Exemple : zhong1 et zhong4 sont des tokens différents
- Le ton neutre est unifié en ton 5 (ma5)
- Total : 1 254 tokens + ,
L’algorithme de Viterbi calcule le chemin optimal entre les images audio et les tokens
- Exemple : pour la prononciation de « Nǐ hǎo », il distingue les segments ni3 et hao3

Réduction du modèle initial de 75M de paramètres jusqu’à 9M
- 75M : TER 4,83 %, Tone Accuracy 98,47 %
- 9M : TER 5,27 %, Tone Accuracy 98,29 %
- La perte de précision est minime, ce qui suggère une tâche limitée par les données (data-bound)
Le modèle FP32 (37 Mo) a été réduit à 11 Mo via quantification INT8
- Chargement immédiat dans le navigateur via onnxruntime-web

Les segments de silence posaient problème en faussant l’évaluation de la prononciation
- Exemple : une seconde de silence avant la prononciation de « 我喜欢… » était incorrectement alignée sur wo3, ce qui donnait une note de 0
Solution : exclure les images silencieuses du calcul du score
- Filtrage des images dont la probabilité de `` est supérieure ou égale à 0,7
- Après correction, le score de confiance de la première syllabe est passé de 0,0 à 0,99

Les tests bêta ont montré un effet tangible sur la correction de prononciation
- Le modèle note de manière très stricte
La précision baisse pour les voix de locuteurs natifs et d’enfants
- Les données AISHELL étant surtout des lectures à voix haute, il existe des écarts de vitesse et d’intonation
- À l’avenir, il faudra ajouter des données conversationnelles comme Common Voice
La démo web pèse environ 13 Mo et fournit une fonction complète de correction de prononciation dans un format plus léger que la plupart des sites web