Journal officiel lisible par l’IA — 128 000 numéros du Journal officiel de la République de Corée, du PDF à un corpus Markdown
(github.com/hosungseo)Notre Journal officiel est déjà public. On peut le télécharger en PDF sur le portail des données publiques, et il n’y a pas de censure. Mais alors, pourquoi chercheurs, journalistes, développeurs, organisations citoyennes et fonctionnaires doivent-ils à chaque fois reparser chacun de leur côté le même Journal officiel ?
Environ 128 000 numéros du Journal officiel de la République de Corée (2020.01.02 ~ 2026.04.07, 1 474 groupes de dates) réindexés en Markdown, avec une correction cumulative de l’OCR fondée sur des dictionnaires : un corpus dérivé du Journal officiel que les humains et l’IA peuvent lire ensemble
L’auteur est secrétaire administratif dans un ministère central
Lecteur en direct : https://hosungseo.github.io/ai-readable-gazette-kr/
Les limites d’une publication pensée pour les humains
- L’écart entre « c’est public » et « un agent d’IA peut l’utiliser » est plus grand qu’on ne le pense
- En PDF, il est impossible de comparer facilement au niveau des articles, de filtrer par organisme, date ou affaire ; l’OCR se dégrade et la structure des tableaux est abîmée
- Résultat : le coût du prétraitement continue d’être reporté sur l’utilisateur (ou l’agent). Journalistes, chercheurs et fonctionnaires redécoupent chacun de leur côté les mêmes PDF
- La prochaine étape de la transparence, ce n’est pas « publier davantage », mais « rendre lisible par machine ce qui existe déjà »
Que contient le projet ?
derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md— 128 403 fichiers Markdown corrigés- Dans le frontmatter :
title / publisher / date / source_raw_md— on peut les injecter tels quels dans un pipeline chunk → embeddings → RAG docs/data/meta.json,dates/YYYY-MM-DD.json,titles.json— index JSON statiques. Récupérables depuis des sites externes sans restrictions CORS- Le lecteur live est un pur HTML qui s’ouvre sans outil de build (recherche, heatmap, TOC, mode sombre et raccourcis clavier inclus)
- Couverture institutionnelle : ministères centraux ~108 800 documents, justice ~7 700, éducation ~4 100, collectivités locales ~3 300, soit environ 1 600 organismes
OCR : sur une base open source coréenne
- Pour l’extraction OCR du texte des PDF, le projet utilise opendataloader, l’outil open source de Hancom
- Le choix de cet outil plutôt qu’un autre est délibéré. Puisqu’il s’agit de travailler sur des données publiques comme le Journal officiel, il semblait juste que l’outil repose lui aussi sur de l’open source coréen
- Si opendataloader continue de progresser, le nombre de caractères corrompus diminuera, et le dictionnaire de correction s’allégera naturellement
- Une structure où, à mesure que l’outil s’améliore, le corpus s’améliore aussi
Une couche supplémentaire au-dessus du PDF
- Publier en PDF est un choix légitime du point de vue de la prévention contre la falsification. Le fait que l’original soit en PDF n’est pas le problème
- La solution n’est pas « supprimons la publication en PDF », mais « gardons le PDF comme original et ajoutons par-dessus une couche dérivée lisible par l’IA »
- Ce dépôt ne supprime ni ne remanie les textes sources. Les PDF originaux restent tels quels, et seul un corpus de lecture dérivé vient s’y superposer en une structure à deux niveaux
2 commentaires
C’est vraiment excellent. On peut ainsi faire analyser en temps réel par une IA les évolutions entre les politiques effectivement mises en avant dans les briefings gouvernementaux et les politiques nationales ou les lois, puis en produire des résultats.
Hihi, on en fait quoi avec ça ?