9 points par mrchypark 2022-04-03 | 1 commentaires | Partager sur WhatsApp

elbird est le package qui constitue, à titre personnel, l’objectif final de kiwigo que j’avais déjà publié auparavant.

Dans l’écosystème R, les packages d’analyse morphologique coréenne se répartissent surtout entre KoNLP (basé sur Java, actuellement * retiré de CRAN) et RcppMecab (basé sur MeCab, rapide, mais sans restauration du texte d’origine), avec quelques autres packages en complément.

Alors que KoNLP était la solution dominante, la difficulté d’installation du JDK et son absence actuelle de CRAN se sont combinées. J’ai donc travaillé pour publier sur CRAN un nouveau package d’analyse morphologique facile à installer et maintenu dans la durée.

C’est ainsi que j’ai découvert kiwi, développé en cpp et doté d’une excellente portabilité.

Après beaucoup de temps, j’ai enfin pu créer un package R en encapsulant ses fonctionnalités cpp, puis finaliser son enregistrement sur CRAN.

La version 0.1.1 est actuellement publiée, et une mise à jour vers la 0.1.2 est prévue prochainement.
Les fonctionnalités actuellement implémentées suffisent pour un usage de base, et je compte d’abord couvrir toutes les fonctionnalités de kiwi avant d’aligner ensuite les versions sur celles de kiwi.

Le readme contient des exemples de code pour une utilisation de base, et des fonctions destinées à un usage avec tidytext, package bien connu d’analyse de texte dans l’écosystème R, ont été prises en compte.

Merci de votre intérêt.

* CRAN : dépôt officiel de packages pour R. Il s’agit d’un dépôt géré, avec tests automatiques et validation par des administrateurs, qui applique une politique evergreen (désinscription en cas d’échec des tests), ce qui nécessite une maintenance continue.

1 commentaires

 
mrchypark 2022-04-03

J’ai encore peu d’expérience en développement et compilation C++, j’ai donc besoin de beaucoup d’aide sur ces sujets.
S’il y a des personnes qui peuvent me conseiller, merci de consulter l’onglet des issues.