7 points par xguru 2020-03-25 | 2 commentaires | Partager sur WhatsApp
  • Boîte à outils de traitement automatique du langage naturel indépendante de la langue, prenant en charge 66 langues, dont le coréen

  • Basé sur PyTorch

  • Pipeline neuronal complet pour l'analyse de texte

  • Tokenisation, expansion des tokens multi-mots (MWT), lemmatisation

  • Étiquetage morpho-syntaxique (POS) et morphologique, analyse de dépendances, reconnaissance d'entités nommées

  • Développé et publié par le Stanford NLP Group

→ Inclut aussi une interface compatible avec le CoreNLP Java précédemment publié

2 commentaires

 
sftblw 2020-03-25

La NER (reconnaissance d'entités nommées) semble malheureusement prendre en charge un nombre assez limité de langues.

Le coréen n'est pas inclus, et il est indiqué que 8 langues sont prises en charge : l'arabe, le chinois, l'allemand, l'anglais, le français, le néerlandais et l'espagnol.

 
xguru 2020-03-25

Il y a deux modèles en coréen.

Parmi ceux enregistrés dans Universal Dependencies (UD) https://universaldependencies.org/, il semble qu'ils aient pris Kaist et GSD, qui ont beaucoup de tokens.

UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html

UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html