6 points par GN⁺ 2025-02-26 | 4 commentaires | Partager sur WhatsApp
  • Explication de la structure du format ouvert de document HWPX et de la manière dont il stocke et gère les données
  • Présentation des différences entre HWPX et l’ancien format HWP, avec une analyse des principaux composants du format HWPX et du rôle de chaque fichier

Introduction

  • La plus grande différence est que HWP est un format binaire, tandis que HWPX est constitué de fichiers XML organisés dans une structure ZIP
  • Dans le cas du format HWP, les flux sont composés sous forme d’enregistrements, ce qui nécessite un processus d’analyse distinct pour extraire les données
    • En revanche, dans le format HWPX, les fichiers principaux étant en XML, l’extraction des données est plus facile

Qu’est-ce que HWPX ?

  • Il s’agit d’un format ouvert de document basé sur XML, développé par Hancom, qui suit OWPML, la norme nationale (KS X 6101)
  • OWPML signifie « Open Word-Processor Markup Language », un langage de balisage de traitement de texte basé sur XML
    • Établie le 30 décembre 2011 comme norme industrielle coréenne (KS), cette norme a été développée sur environ deux ans par le comité national de normalisation des documents
    • Il s’agit d’une norme nationale co-développée avec des experts participant directement à l’élaboration des normes nationales
  • Ce format de fichier a été développé pour assurer l’ouverture, la compatibilité et la pérennité du format binaire HWP
    • Pour cela, il est composé d’un format de paquetage basé sur XML

Structure d’un fichier HWPX

  • HWPX est un format basé sur XML avec une structure de fichier ZIP
  • Une fois décompressé, il se compose de plusieurs fichiers XML et dossiers
  • Principaux composants :
    • mimetype : contient les informations de type de fichier et sert de signature permettant de confirmer qu’il s’agit du format HWPX
    • settings.xml : inclut des informations sur des éléments de configuration externes, comme la position du curseur
    • version.xml : contient les informations de version du format de fichier OWPML et des informations sur l’environnement d’enregistrement du document
    • BinData/ : stocke les fichiers binaires inclus dans le document, comme les images et les objets OLE
    • Contents/ : contient les informations de mise en forme et le contenu principal du document, et se compose de fichiers tels que content.hpf, header.xml, section0.xml, etc.
      • content.hpf : liste principale des fichiers du paquetage. Défini selon le standard PF (Open Packaging Format), il est structuré en trois parties : metadata, manifest et spine
      • header.xml : inclut tous les paramètres liés au contenu du document et contient des informations de mapping comme la forme des caractères et la forme des paragraphes
      • section0.xml : stocke le contenu principal par section, chaque section du document étant enregistrée dans un fichier distinct
    • META-INF/ : inclut les fichiers manifest.xml, container.rdf et container.xml ; dans le cas d’un document chiffré, les informations de chiffrement de chaque fichier y sont stockées
    • Scripts/ : les informations de script enregistrées dans le document sont stockées dans les fichiers headerScripts et sourceScripts
    • Preview/ : contient une image d’aperçu et un fichier texte. Ce sont les informations affichées lorsqu’on ouvre le volet d’aperçu dans l’explorateur de fichiers. Dans le cas d’un document chiffré, ces fichiers ne sont pas enregistrés pour des raisons de sécurité

Conclusion

  • Avant d’exploiter HWPX, cet article explique la structure globale et le rôle de chaque fichier qui compose l’intérieur du format
  • La suite de la série partagera des exemples concrets pour extraire les données souhaitées à partir de documents HWPX réels
  • Espérons que cela aidera à exploiter les composants et les données de HWPX

4 commentaires

 
penguin5 2025-02-26

Merci pour cet excellent article. Je souhaite créer en HWP des fichiers générés sur AWS (comme des rapports), mais c’est difficile faute de références suffisantes sur le sujet. Pour le moment, nous utilisons Word. Si vous avez des ressources qui pourraient servir de référence, je vous serais reconnaissant de bien vouloir partager les liens.

 
regentag 2025-02-26

D’après ce que j’avais entendu, le hwpx serait simplement le binaire du hwp réécrit en XML puis empaqueté dans un zip.
Cela dit, au moins, on peut le lire...

 
molla 2025-02-26

On dit que c’est une reprise quasi à l’identique de docx.
MS avait déjà fait la même chose en passant de doc à docx.