15 points par hongminhee 2021-10-09 | 12 commentaires | Partager sur WhatsApp

Bonjour. Après avoir créé un compte sur GeekNews, je me suis jusque-là contenté de bien lire le site, mais à l’occasion de la Journée du hangeul, je me suis rappelé le tableau 《Comparatif des termes d’informatique en coréen, chinois et japonais》 que j’avais réalisé au début de l’année, et je le partage donc ici en Show GN.

Comme dans beaucoup de domaines spécialisés, on voit aujourd’hui souvent, par commodité, des termes d’informatique employés directement en anglais comme emprunts, au lieu d’utiliser les traductions déjà établies depuis longtemps. Par exemple, de nos jours, même « valeur » est souvent simplement dite et écrite « value ».

Quoi qu’il en soit, il existe aussi en coréen de nombreux bons termes traduits en informatique, déjà bien établis depuis plusieurs décennies. En découvrant qu’une grande partie d’entre eux est partagée avec le Japon ou Taïwan, qui appartiennent à la même sphère culturelle sinographique, j’ai réalisé ce tableau comparatif pour le plaisir. À l’occasion de la Journée du hangeul, n’hésitez pas à y jeter un œil.

Le code source se trouve sur < https://github.com/dahlia/cjk-compsci-terms >. Les termes sont organisés en fichiers YAML dans le répertoire tables/ selon leur catégorie, donc les PR pour ajouter des termes ou corriger des erreurs sont également les bienvenues.

Merci de m’avoir lu !

12 commentaires

 
dhsung 2021-10-10

J’ai une question.

En regardant les graphies chinoises et japonaises dans le YAML, j’ai constaté que vous avez utilisé des graphies en sinogrammes employées en Corée, puis indiqué en dessous, dans term, les formes traditionnelles, simplifiées et les abréviations japonaises.

Je me demande dans quelle intention cela a été conçu.

Par exemple, pour Source Code,

vous indiquez que, pour la Chine continentale (zh-CN), les expressions en hanja coréens « 源代碼 » et « 源程序 » sont utilisées,

mais comme les graphies simplifiées sont correctement renseignées dans term, cela me paraît manquer de cohérence.

À titre de référence, pour Source Code,

en Chine continentale, on utilise principalement 源代码, 源码 et 源程序,

à Taïwan, 原始碼 et 原始程式碼,

et j’ai entendu dire qu’à Hong Kong, on utilise 原始碼 et 源碼.

Par ailleurs, dans le cas de Computer,

en Chine continentale, le terme officiel est « 电子计算机 », et dans de nombreux livres et documents, on emploie « 计算机 » pour désigner Computer,

mais sous l’influence de Taïwan et de Hong Kong, beaucoup de gens utilisent aussi couramment « 电脑 ».

Référence 1 : https://zh.wikipedia.org/wiki/…

Référence 2 : 电脑吧 https://tieba.baidu.com/f?kw=%B5%E7%C4%D4&fr=ala0&tpl=5

Rubrique CPU de JD.com : https://pcdiy.jd.com/

Rubrique ordinateurs portables de JD.com : https://list.jd.com/list.html?cat=670,671,672

Ainsi, sur ce point, il semble y avoir beaucoup d’éléments à vérifier pour déterminer s’il faut s’appuyer principalement sur les appellations officielles du gouvernement.

Comme les graphies utilisées dans le monde sinophone varient d’une région à l’autre, et que leur fréquence d’usage diffère aussi selon les locuteurs, il semble qu’il y ait de nombreux facteurs à prendre en compte.

 
hongminhee 2021-10-10

Merci pour votre précieux retour.

Pour commencer, si vous vérifiez d’abord la page publiée sur le web, vous pourrez constater que, parmi les termes en chinois continental, aucun élément n’est affiché en caractères hanja de style coréen plutôt qu’en caractères simplifiés. Comme seul le champ term dans les données YAML correspond réellement au contenu affiché à l’écran, j’ai, comme vous l’avez indiqué, utilisé dans term uniquement les graphies employées dans chaque région (sauf pour le coréen, noté en hanja de style coréen plutôt qu’en hangeul).

Quant à la chaîne de caractères en style Kangxi Dictionary utilisée au-dessus, il s’agit simplement d’un identifiant de groupe arbitraire servant à regrouper, dans les données, des mots cognats entre différentes langues (ou dialectes). Puisqu’il est arbitraire, il n’a pas besoin d’être en sinogrammes ; on pourrait tout aussi bien utiliser un nombre ou un hash. Cependant, par exemple, le japonais 「科学」 et le chinois taïwanais 「科學」 doivent être reliés et affichés comme un même cognat ; ils doivent donc partager le même identifiant de groupe. De même, le coréen « keompyuteo » et le japonais 「コンピュータ」 doivent eux aussi être regroupés sous un même identifiant.

J’aurais pu utiliser comme identifiant une chaîne arbitraire et dénuée de sens comme 「foobar」, mais j’ai pensé qu’il serait plus pratique, pour la maintenance, d’adopter par commodité une règle cohérente laissant transparaître le contenu. Ainsi, pour les emprunts à l’anglais, la règle la plus intuitive était de les noter en alphabet latin, et pour les mots d’origine sino-coréenne/sino-japonaise/sinique, de les noter en sinogrammes. Cependant, comme les graphies en sinogrammes peuvent varier, il a fallu normaliser différentes formes abrégées ou variantes graphiques (puisqu’il s’agit d’identifiants de groupe, il faut bien les ramener à une seule forme). Dans ce processus, les caractères simplifiés chinois et les shinjitai japonais ont naturellement été écartés, car ils ne conviennent pas à la normalisation : il arrive assez souvent que des caractères différents y soient fusionnés au motif qu’ils ont la même lecture selon les standards locaux (ce qui entraîne une perte d’information classificatoire). Le choix ne pouvait donc se faire qu’entre des options comme les caractères traditionnels de Hong Kong, les caractères orthodoxes de Taïwan ou les hanja de style coréen ; j’ai retenu comme référence la graphie du Kangxi Dictionary, que l’on peut considérer comme dépourvue d’implications liées à un quelconque régime politique existant.

Tout ce qui précède est déjà décrit dans le fichier CONTRIBUTING.md du dépôt. D’autres points y sont également expliqués, cela peut donc aussi vous être utile.

Déterminer, parmi plusieurs mots désignant le même sens au sein d’une communauté linguistique, lequel est le plus employé — autrement dit, appréhender largement la distribution du vocabulaire — demande trop de coûts et de temps pour qu’un simple particulier non spécialiste puisse l’étudier seul. S’il existait des travaux antérieurs examinant la distribution de l’usage des termes parmi les personnes engagées dans la recherche en informatique ou le développement logiciel, je serais très disposé à les exploiter activement ; mais à défaut de telles ressources, j’ai absolument besoin de l’aide de plusieurs contributeurs, en particulier des suggestions de locuteurs natifs de chaque langue. Bien entendu, comme j’ai mené jusqu’ici mes recherches seul, je n’ai eu d’autre choix que de m’appuyer principalement sur des sources comme Wikipédia en chinois ou Baidu Baike.

Concernant les cas concrets que vous avez mentionnés, je pense qu’ils pourront être intégrés plus rapidement si vous envoyez une pull request.

Merci d’avoir lu ce long commentaire.

 
dhsung 2021-10-10

Si vous consultez l’English-Chinese Glossary of IT Terms publié par le gouvernement de Hong Kong, cela devrait vous aider à recenser les termes utilisés à Hong Kong.

https://ogcio.gov.hk/en/our_work/…

 
alstjr7375 2021-10-09

C’est super :D

 
kunggom 2021-10-09

Merci pour cette bonne synthèse.

Si l’occasion se présente plus tard, j’aimerais aussi voir des documents sur la terminologie informatique nord-coréenne. Je ne sais pas s’il existe des ressources adaptées au Centre des données sur la Corée du Nord du ministère de la Réunification.

 
dhsung 2021-10-10

Il existe déjà sur le site du ministère de la Réunification.

Comparaison des termes IT entre la Corée du Sud et la Corée du Nord : https://nkinfo.unikorea.go.kr/nkp/term/skNkItTerm.do

 
hongminhee 2021-10-09

En disséquant quelque chose comme Étoile rouge, la distribution Linux nord-coréenne, on pourrait peut-être en tirer des informations. Il me semble qu’il y avait aussi le Grand dictionnaire de la langue coréenne… Quand j’aurai un peu de temps, j’essaierai d’ajouter aussi le parler nord-coréen !

 
dhsung 2021-10-10

Comparaison des termes IT entre la Corée du Nord et la Corée du Sud : https://nkinfo.unikorea.go.kr/nkp/term/skNkItTerm.do

En le scrapant, il semble qu’on pourrait l’ajouter rapidement.

 
kunggom 2021-10-10

À bien regarder, ils fournissent même l’intégralité du contenu sous forme de fichier au format xls, donc il n’est même pas nécessaire de faire du scraping.

 
luavis 2021-10-09

Ce serait bien de séparer ko en ko-kr et ko-kp, et d’ajouter la terminologie informatique nord-coréenne.

 
hongminhee 2021-10-09

Je pensais qu’en l’entourant de <> comme en Markdown, l’URL serait correctement délimitée, mais apparemment non. 😅 Le lien du dépôt est ici : https://github.com/dahlia/cjk-compsci-terms

 
hongminhee 2021-10-09

Merci aussi d’avoir corrigé le texte principal !