1 points par GN⁺ 2026-02-01 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Pour aider à pratiquer la prononciation et les tons du chinois, j’ai créé moi-même un modèle vocal basé sur CTC de 9M de paramètres, entraîné sur environ 300 heures de données vocales
  • Il utilise une architecture d’encodeur Conformer pour capturer à la fois les caractéristiques vocales locales et le contexte global, avec une tokenisation en unités Pinyin+ton qui distingue clairement les erreurs de prononciation
  • Grâce à la perte CTC, le modèle évalue image par image ce que l’utilisateur a réellement prononcé, et effectue l’alignement temporel avec l’algorithme de Viterbi
  • Même en réduisant la taille du modèle de 75M à 9M, il n’y a eu presque aucune perte de précision ; après quantification INT8, il ne pèse plus qu’environ 11 Mo et peut s’exécuter immédiatement dans un navigateur web
  • La démo dans le navigateur montre le potentiel d’un système de correction de prononciation on-device, et l’amélioration de la qualité des données sera la clé des progrès futurs

Vue d’ensemble du modèle d’évaluation de la prononciation

  • Pour répondre à la difficulté de l’apprentissage de la prononciation chinoise, j’ai entraîné moi-même un petit modèle vocal qui note la prononciation
    • En utilisant environ 300 heures de données vocales transcrites (AISHELL-1, Primewords)
    • Fourni sous une forme exécutable directement dans le navigateur
  • Les méthodes de visualisation de la hauteur existantes étaient instables à cause du bruit, des différences d’élocution, etc., et une approche fondée sur les données s’est révélée plus efficace
  • L’objectif est d’implémenter un système Computer-Assisted Pronunciation Training (CAPT) on-device sans API commerciale

Architecture du modèle et méthode d’entraînement

  • Adoption d’une architecture encodeur Conformer + perte CTC
    • Le CNN capte les caractéristiques acoustiques de très courte durée (ex. : zh vs z)
    • Le Transformer traite les schémas tonals contextuels (ex. : tone sandhi)
  • La méthode CTC produit une distribution de probabilité par image afin d’évaluer directement les phonèmes réellement prononcés
    • Le token `` est utilisé pour aligner les répétitions et les espaces
    • Le contenu réellement prononcé est reflété tel quel, sans correction automatique

Tokenisation et alignement

  • Chaque combinaison Pinyin+ton est définie comme un token unique
    • Exemple : zhong1 et zhong4 sont des tokens différents
    • Le ton neutre est unifié en ton 5 (ma5)
    • Total : 1 254 tokens + ,
  • L’algorithme de Viterbi calcule le chemin optimal entre les images audio et les tokens
    • Exemple : pour la prononciation de « Nǐ hǎo », il distingue les segments ni3 et hao3

Allègement du modèle et performances

  • Réduction du modèle initial de 75M de paramètres jusqu’à 9M
    • 75M : TER 4,83 %, Tone Accuracy 98,47 %
    • 9M : TER 5,27 %, Tone Accuracy 98,29 %
    • La perte de précision est minime, ce qui suggère une tâche limitée par les données (data-bound)
  • Le modèle FP32 (37 Mo) a été réduit à 11 Mo via quantification INT8
    • Chargement immédiat dans le navigateur via onnxruntime-web

Erreurs d’alignement et correction

  • Les segments de silence posaient problème en faussant l’évaluation de la prononciation
    • Exemple : une seconde de silence avant la prononciation de « 我喜欢… » était incorrectement alignée sur wo3, ce qui donnait une note de 0
  • Solution : exclure les images silencieuses du calcul du score
    • Filtrage des images dont la probabilité de `` est supérieure ou égale à 0,7
    • Après correction, le score de confiance de la première syllabe est passé de 0,0 à 0,99

Résultats et limites

  • Les tests bêta ont montré un effet tangible sur la correction de prononciation
    • Le modèle note de manière très stricte
  • La précision baisse pour les voix de locuteurs natifs et d’enfants
    • Les données AISHELL étant surtout des lectures à voix haute, il existe des écarts de vitesse et d’intonation
    • À l’avenir, il faudra ajouter des données conversationnelles comme Common Voice
  • La démo web pèse environ 13 Mo et fournit une fonction complète de correction de prononciation dans un format plus léger que la plupart des sites web

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.