-
Contexte culturel
- StarCraft: Brood War (ci-après BW) est un jeu extrêmement important en Corée, et la plupart des joueurs professionnels, des équipes et des compétitions y sont basés.
- Comme les échecs, BW est un jeu de stratégie où il est important non seulement de jouer, mais aussi d’étudier le jeu.
- Comme les ouvertures aux échecs, BW possède des stratégies et des builds spécifiques, qui constituent un langage spécialisé propre à la communauté.
-
Le problème de connaissance côté étrangers
- La majeure partie de la communauté étrangère ne maîtrise pas le coréen.
- Les étrangers parlant couramment coréen sont rares, ce qui limite l’accès à l’information de la communauté étrangère par rapport à la communauté coréenne.
- La traduction automatique a ses limites pour traduire ce langage spécialisé, ce qui a contribué au retard de la communauté étrangère par rapport à la communauté coréenne.
-
Un nouveau processus de traduction
- Un nouveau processus de traduction automatique permet désormais de fournir des traductions plus précises.
- Il a été possible de traduire environ 7 vidéos par jour, soit un rythme bien plus rapide qu’auparavant.
-
Stack technique
- Le système est divisé en deux parties : la génération et la consommation des sous-titres.
- yt-dlp et OpenAI Whisper sont utilisés pour télécharger la piste audio des vidéos et générer des sous-titres.
- Google Colab est utilisé pour exécuter Whisper, recevoir l’URL d’une vidéo en entrée et produire un fichier SRT en coréen.
- Un LLM et un dictionnaire d’argot sont utilisés pour améliorer la précision de la traduction.
-
Consommation des sous-titres
- TamperMonkey est utilisé pour ajouter un bouton aux vidéos YouTube et permettre le téléchargement des sous-titres traduits.
- Pastebin et Google Sheets + Apps Script sont utilisés pour partager et gérer les sous-titres.
-
Pistes d’amélioration
- Possibilité d’ajouter la prise en charge de plusieurs langues.
- Côté technique, possibilité d’ajouter une fonction pour n’afficher le bouton que sur certaines vidéos.
-
Réflexions finales
- Les performances, la scalabilité et la latence n’étaient pas importantes, et le projet a été réalisé en combinant des solutions déjà existantes.
- Le script utilisateur et le code Python du notebook Colab sont courts et faciles à maintenir.
- Ce projet n’est qu’un système CRUD très simple, et il n’y a pas vraiment de raison que la complexité augmente fortement.
1 commentaires
Commentaires Hacker News
En tant que joueur coréen de BW et chercheur en reconnaissance vocale, j’ai trouvé cet article intéressant. Il y avait à l’origine beaucoup d’erreurs dans la transcription coréenne, mais les LLM les ont corrigées de manière impressionnante. Par exemple, « build 12 expansion naturelle » était en réalité « build 12 expansion avant ». Le build
투에처리aurait dû être transcrit en build투해처리.Ne vous laissez pas tromper par le titre. Cet article propose une approche très approfondie et créative pour traduire les commentaires de StarCraft et les rendre plus accessibles.
En tant qu’utilisateur non anglophone, la lecture de cet article m’a rappelé la difficulté de traduire les articles d’informatique et de développement logiciel.
J’ai très bien compris la version Google Translate, probablement parce que je connais bien BW et l’ouverture zerg 12 hatch.
J’ai trouvé amusant que l’article sur la traduction comprenne complètement à l’envers le rapport signal sur bruit. Un rapport signal sur bruit élevé, c’est une bonne chose.
On peut utiliser yt-dlp pour télécharger une vidéo en basse qualité afin d’économiser de la bande passante.
yt-dlp -f "bv[height<=720]" <url>En tant que personne ayant joué à des money maps dans son enfance, je me suis demandé ce que signifiaient les chiffres devant les bâtiments.
Google Translate s’est amélioré, mais il n’a pas réussi à traduire efficacement du texte chinois ou japonais sur le jeu de Go.
J’ai aimé cet article. Quand j’ai essayé les qualifications régionales américaines des World Cyber Games, j’ai été surpris par la vitesse des autres joueurs.
J’ai aimé que « natural expansion » ait été traduit par « courtyard », même si c’est « faux ».