Journal officiel lisible par l’IA — 128 000 numéros du Journal officiel de la République de Corée, du PDF à un corpus Markdown

(github.com/hosungseo)

16 points par hosungseo2026 2026-04-19 | 2 commentaires | Partager sur WhatsApp

Notre Journal officiel est déjà public. On peut le télécharger en PDF sur le portail des données publiques, et il n’y a pas de censure. Mais alors, pourquoi chercheurs, journalistes, développeurs, organisations citoyennes et fonctionnaires doivent-ils à chaque fois reparser chacun de leur côté le même Journal officiel ?
Environ 128 000 numéros du Journal officiel de la République de Corée (2020.01.02 ~ 2026.04.07, 1 474 groupes de dates) réindexés en Markdown, avec une correction cumulative de l’OCR fondée sur des dictionnaires : un corpus dérivé du Journal officiel que les humains et l’IA peuvent lire ensemble
L’auteur est secrétaire administratif dans un ministère central
Lecteur en direct : https://hosungseo.github.io/ai-readable-gazette-kr/

Les limites d’une publication pensée pour les humains

L’écart entre « c’est public » et « un agent d’IA peut l’utiliser » est plus grand qu’on ne le pense
En PDF, il est impossible de comparer facilement au niveau des articles, de filtrer par organisme, date ou affaire ; l’OCR se dégrade et la structure des tableaux est abîmée
Résultat : le coût du prétraitement continue d’être reporté sur l’utilisateur (ou l’agent). Journalistes, chercheurs et fonctionnaires redécoupent chacun de leur côté les mêmes PDF
La prochaine étape de la transparence, ce n’est pas « publier davantage », mais « rendre lisible par machine ce qui existe déjà »

Que contient le projet ?

derived/readable-corrected/YYYY-MM-DD/NNN_<기관>_<제목>.md — 128 403 fichiers Markdown corrigés
Dans le frontmatter : title / publisher / date / source_raw_md — on peut les injecter tels quels dans un pipeline chunk → embeddings → RAG
docs/data/meta.json, dates/YYYY-MM-DD.json, titles.json — index JSON statiques. Récupérables depuis des sites externes sans restrictions CORS
Le lecteur live est un pur HTML qui s’ouvre sans outil de build (recherche, heatmap, TOC, mode sombre et raccourcis clavier inclus)
Couverture institutionnelle : ministères centraux ~108 800 documents, justice ~7 700, éducation ~4 100, collectivités locales ~3 300, soit environ 1 600 organismes

OCR : sur une base open source coréenne

Pour l’extraction OCR du texte des PDF, le projet utilise opendataloader, l’outil open source de Hancom
Le choix de cet outil plutôt qu’un autre est délibéré. Puisqu’il s’agit de travailler sur des données publiques comme le Journal officiel, il semblait juste que l’outil repose lui aussi sur de l’open source coréen
Si opendataloader continue de progresser, le nombre de caractères corrompus diminuera, et le dictionnaire de correction s’allégera naturellement
Une structure où, à mesure que l’outil s’améliore, le corpus s’améliore aussi

Une couche supplémentaire au-dessus du PDF

Publier en PDF est un choix légitime du point de vue de la prévention contre la falsification. Le fait que l’original soit en PDF n’est pas le problème
La solution n’est pas « supprimons la publication en PDF », mais « gardons le PDF comme original et ajoutons par-dessus une couche dérivée lisible par l’IA »
Ce dépôt ne supprime ni ne remanie les textes sources. Les PDF originaux restent tels quels, et seul un corpus de lecture dérivé vient s’y superposer en une structure à deux niveaux

2 commentaires

meta1001 19 일 전

C’est vraiment excellent. On peut ainsi faire analyser en temps réel par une IA les évolutions entre les politiques effectivement mises en avant dans les briefings gouvernementaux et les politiques nationales ou les lois, puis en produire des résultats.

limhasic 2026-04-20

Hihi, on en fait quoi avec ça ?

Journal officiel lisible par l’IA — 128 000 numéros du Journal officiel de la République de Corée, du PDF à un corpus Markdown

À lire aussi

2 commentaires