Convertisseur HWPX basé sur Pandoc - présentation d’un outil open source qui convertit md, html et docx en hwpx.
(github.com/msjang)Développé après 9 ans dans un institut public de recherche pour résoudre les contraintes du travail sur les documents HWP.
Contexte de développement
- 2018 : à mes débuts en Python, tentative d’un convertisseur HML/HWPML basé sur des expressions régulières - https://github.com/msjang/md2hml
- Janvier 2025 : développement de
hwpfy- compilation des rapports hebdomadaires d’environ 20 personnes à partir d’un wiki avec édition collaborative en temps réel
- Wiki → export en DOCX → conversion en DOCX avec mise en forme de formulaire administratif (
hwpfy) → ouverture dans l’application Hancom Hangul puis enregistrement en HWPX → partage en HWPX avec le service hiérarchiquement supérieur au sein de l’institut
- Décembre 2025 :
pypandoc-hwpx- J’ai estimé avoir acquis assez d’expérience, alors j’ai pris le temps de le développer sérieusement.
Méthode de développement
- J’ai créé un DOCX avec la mise en forme souhaitée, puis je l’ai enregistré en HWPX.
- J’ai décompressé le DOCX et le HWPX générés pour examiner les fichiers XML, supprimer les attributs inutiles et les affiner. J’ai aussi vérifié qu’ils s’ouvraient correctement dans Word et dans l’application Hangul.
- J’ai créé un document comparant les formats md, html, docx et hwpx. - https://github.com/msjang/pypandoc-hwpx/…
- Au départ, je comptais demander à un LLM de coder à partir de
format_comparison.mdci-dessus, mais j’ai réalisé que j’avais déjà un HWPX de référence contenant la bonne réponse. - Je l’ai construit en itérant plusieurs fois avec les retours d’Antigravity (Gemini Pro 3). Comme la sortie n’avait pas le format souhaité, j’ai inspecté le XML en détail pour fournir des retours précis. Je n’ai pas mentionné directement le document de comparaison des formats, mais le fait d’en avoir assimilé le contenu m’a beaucoup aidé pour la revue.
Travaux à venir
Je souhaite retirer Python de Pypandoc, coder cela en Haskell et contribuer un writer HWPX à Pandoc.
Aucun commentaire pour le moment.