7 points par ninebow 13 일 전 | 2 commentaires | Partager sur WhatsApp

Depuis la présentation du projet via Show GN, je partage ici un récapitulatif des mises à jour de legalize-kr sur le mois écoulé (31 jours). Grâce à l’intérêt et au soutien de nombreuses personnes, j’ai pu améliorer divers aspects du projet. Merci !

Qu’est-ce que legalize-kr ?

legalize-kr est un projet qui archive, sous forme de Markdown + historique Git, les lois et la jurisprudence de la République de Corée fournies par l’initiative de réutilisation partagée de l’Information nationale sur la législation du ministère de la Législation. Toutes les lois sont archivées sous forme de documents Markdown, tous les historiques de révision sous forme de commits Git, et la jurisprudence est elle aussi archivée en documents Markdown avec un historique Git basé sur la date du jugement.

Pourquoi l’avoir créé ?

Le 30 mars dernier, j’ai découvert sur GitHub Trending un projet appelé legalize.dev, qui gère en Markdown et en commits Git des textes juridiques espagnols et anglo-saxons. Je me suis dit qu’il devait naturellement exister quelque chose de similaire pour le droit coréen, mais après recherche, je n’ai rien trouvé. J’ai donc décidé d’en créer un.

Mise à jour 1. Ajout des dépôts pour les règles administratives / règlements locaux

Auparavant, le projet ne couvrait que les lois et la jurisprudence, mais j’ai ajouté, dans des dépôts séparés, les règles administratives et les règlements locaux également fournis par la même initiative de réutilisation partagée de l’Information nationale sur la législation. Il est désormais possible de suivre en un seul endroit les principaux documents juridiques publics de Corée du Sud au format Markdown + historique Git :

Les règles administratives regroupent notamment les directives, règles d’application et avis publiés par les différents ministères, tandis que les règlements locaux correspondent aux ordonnances et règles des collectivités territoriales. Le volume y est plus important que pour les lois, et les révisions sont aussi plus fréquentes ; il m’a donc semblé que leur suivi via l’historique Git pouvait avoir une vraie valeur. En revanche, pour les règles administratives, il reste assez difficile de suivre les changements de nom des ministères ou les redistributions de responsabilités. J’ai déjà procédé à plusieurs améliorations, mais il reste encore du chemin à parcourir. Toute participation ou intérêt sera très apprécié.

Mise à jour 2. Ajout d’un outil CLI, de MCP et d’Agent Skill

Cloner l’intégralité des dépôts avec git clone reste la solution la plus pratique et la plus complète, mais télécharger à chaque fois des dépôts de plusieurs dizaines de Go peut être contraignant. J’ai donc créé un outil CLI basé sur l’API REST de GitHub. En parallèle, le même code fournit aussi un serveur MCP, et j’ai ajouté un Agent Skill directement utilisable dans Claude Code / Codex, etc. :

Sans récupérer l’ensemble du dépôt, il est désormais possible de rechercher une loi ou une décision précise, de consulter des articles individuellement ou de suivre l’historique des révisions ; via MCP, un LLM/Agent peut aussi appeler ces fonctions directement. L’AGENT SKILL inclut également un guide expliquant dans quels cas utiliser la CLI, MCP, git clone ou un accès direct à GitHub. À noter toutefois que l’API REST de GitHub est limitée à 60 requêtes par heure sans authentification ; si nécessaire, il faut donc utiliser un token GitHub (jusqu’à 5 000 requêtes par heure).

Mise à jour 3. Ajout d’une page de cas d’usage / écosystème

Comme quelques projets commencent à apparaître autour des jeux de données fournis par legalize-kr, j’ai commencé à les recenser sur la page d’accueil, en bas de la page principale et dans le menu « usages ». J’y présente non seulement les projets qui utilisent directement ces données, mais aussi d’autres projets ou outils poursuivant des objectifs similaires (comme Beommang et Korean Law MCP, déjà présentés sur GN).

Si vous utilisez un ou plusieurs jeux de données de legalize-kr, ou si vous travaillez sur un projet dans un domaine proche, n’hésitez pas à me le signaler via une PR, une issue ou un commentaire sous ce post ; je l’ajouterai à cette page.

Mise à jour 4. Autres améliorations pour une meilleure exploitation des données

En m’appuyant sur les issues ouvertes dans les différents dépôts, je poursuis le travail sur les règles de parsing et l’organisation des métadonnées. Les principaux changements sont les suivants :

  • Amélioration des règles de parsing pour des unités supplémentaires comme hang et sok, en plus des niveaux existants « partie / chapitre / section / sous-section » (legalize-kr/legalize-kr#32)
  • Correction de la perte du motif <제M조의 N> (legalize-kr/legalize-kr#31 et legalize-kr/legalize-pipeline#2)
  • Complément de lois manquantes, par exemple le Code de commerce et son décret d’application (legalize-kr/legalize-kr#9)
  • Correction d’un problème où, à cause de fichiers résiduels d’anciens règlements d’application, git log enregistrait des changements comme des « ajouts » au lieu de « modifications » (legalize-kr/legalize-kr#24)
  • Changement du nom des fichiers de jurisprudence et classement des répertoires par date de décision (legalize-kr/precedent-kr#4)
  • Correction de l’affichage cassé des adresses coréennes dans les URL sources de jurisprudence (404 sur law.go.kr) (legalize-kr/precedent-kr#3)
  • Rattrapage de 17 commits Git manquants pour des dates de décision en ère Dangi (檀紀) (legalize-kr/precedent-kr#1)
  • Ajout, dans le frontmatter Markdown, des liens vers les fichiers joints relatifs à chaque loi / décision / règle administrative / règlement local sous forme de liste

Vous pouvez consulter plus en détail ces évolutions dans les issues fermées des principaux dépôts :

Pour finir

Au départ, c’était un peu l’idée de « le construire, et quelqu’un finira bien par s’en servir », mais depuis le précédent Show GN, avec les nombreuses ⭐ et les issues reçues, le périmètre s’est naturellement élargi. Le projet est maintenu et géré de façon continue, donc merci d’y porter de l’intérêt, de le soutenir et d’en parler autour de vous. Merci !

2 commentaires

 
ptlkiki 13 일 전

Notre ministère développe quelque chose avec la RAG ; nous aimerions le cloner et n’en extraire que les lois et règlements liés à notre domaine pour les utiliser.
Est-ce possible ?

 
ninebow 12 일 전

Oui, je ne sais pas comment le pipeline est configuré actuellement, mais en principe, il devrait suffire d’ajouter les traitements nécessaires avant d’insérer les documents dans la base de données vectorielle pour la configuration RAG actuelle.

Cela dit, le point clé sera sans doute la manière dont vous extrayez les « lois et règlements associés » ; vous pourriez peut-être essayer de filtrer à partir du nom des textes ou de mots-clés principaux. ^^;

Merci !