Stanza - bibliothèque NLP Python open source
(stanfordnlp.github.io)-
Boîte à outils de traitement automatique du langage naturel indépendante de la langue, prenant en charge 66 langues, dont le coréen
-
Basé sur PyTorch
-
Pipeline neuronal complet pour l'analyse de texte
-
Tokenisation, expansion des tokens multi-mots (MWT), lemmatisation
-
Étiquetage morpho-syntaxique (POS) et morphologique, analyse de dépendances, reconnaissance d'entités nommées
-
Développé et publié par le Stanford NLP Group
→ Inclut aussi une interface compatible avec le CoreNLP Java précédemment publié
2 commentaires
La NER (reconnaissance d'entités nommées) semble malheureusement prendre en charge un nombre assez limité de langues.
Le coréen n'est pas inclus, et il est indiqué que 8 langues sont prises en charge : l'arabe, le chinois, l'allemand, l'anglais, le français, le néerlandais et l'espagnol.
Il y a deux modèles en coréen.
Parmi ceux enregistrés dans Universal Dependencies (UD) https://universaldependencies.org/, il semble qu'ils aient pris Kaist et GSD, qui ont beaucoup de tokens.
UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html
UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html