Stanza - bibliothèque NLP Python open source

(stanfordnlp.github.io)

7 points par xguru 2020-03-25 | 2 commentaires | Partager sur WhatsApp

Boîte à outils de traitement automatique du langage naturel indépendante de la langue, prenant en charge 66 langues, dont le coréen
Basé sur PyTorch
Pipeline neuronal complet pour l'analyse de texte
Tokenisation, expansion des tokens multi-mots (MWT), lemmatisation
Étiquetage morpho-syntaxique (POS) et morphologique, analyse de dépendances, reconnaissance d'entités nommées
Développé et publié par le Stanford NLP Group

→ Inclut aussi une interface compatible avec le CoreNLP Java précédemment publié

2 commentaires

sftblw 2020-03-25

La NER (reconnaissance d'entités nommées) semble malheureusement prendre en charge un nombre assez limité de langues.

Le coréen n'est pas inclus, et il est indiqué que 8 langues sont prises en charge : l'arabe, le chinois, l'allemand, l'anglais, le français, le néerlandais et l'espagnol.

xguru 2020-03-25

Il y a deux modèles en coréen.

Parmi ceux enregistrés dans Universal Dependencies (UD) https://universaldependencies.org/, il semble qu'ils aient pris Kaist et GSD, qui ont beaucoup de tokens.

UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html

UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html

Stanza - bibliothèque NLP Python open source

À lire aussi

2 commentaires