23 points par GN⁺ 2025-02-25 | 13 commentaires | Partager sur WhatsApp

Introduction

  • Dans la société moderne, les technologies d’intelligence artificielle stimulent l’innovation dans de nombreux domaines, et l’importance des données ne cesse de croître.
  • Le format HWP possède des caractéristiques favorables à l’entraînement de l’IA.
    • En plus du simple texte, il se compose de divers éléments comme des images, des tableaux et des graphiques, ce qui fournit des informations riches.
    • Comme il est structuré sous différents formats tels que les titres, les paragraphes et les tableaux, il peut aider les modèles d’IA à comprendre et analyser les documents.
  • Cet article examine la structure du format HWP et la manière dont les informations d’un document y sont stockées.

Qu’est-ce que le format HWP ?

  • Le format HWP est un format de document développé par Hancom, publié pour la première fois en 1997.
  • Ce format repose sur le CFB (Compound File Binary File Format), une méthode qui permet de stocker plusieurs flux de données dans un seul fichier.
  • Un fichier HWP contient des informations telles que File Header, DocInfo, DocOptions, BodyText, Script, HwpSummaryInformation, PrvImage et PrvText.

1. File Header

  • L’en-tête de fichier d’un fichier HWP contient les informations de reconnaissance d’un document Han/Geul.
  • Il inclut des informations de signature, la version du document et des informations d’identification du fichier, qui permettent de déterminer le type de document HWP.

2. DocInfo

  • Il s’agit du flux qui contient les informations communes utilisées dans le document, comme les polices, les attributs de caractères et les attributs de paragraphe.
  • DocInfo est stocké compressé avec zlib, et il est possible de consulter les données d’origine après décompression.
  • Différents types d’informations y sont stockés sous forme d’enregistrements.

3. DocOptions

  • Des informations telles que les documents liés, les documents destinés à la diffusion et les certificats numériques y sont stockées sous forme de flux.

4. BodyText (Section)

  • Le contenu réel correspondant au corps du document y est stocké.
  • Selon le nombre de sections du corps du texte, il se compose de plusieurs flux Section.

5. Script

  • Il s’agit du stockage où sont enregistrées les informations de script définies dans la fonction de macro de script.

6. HwpSummaryInformation

  • Les informations de résumé du document y sont stockées, selon la structure PropertySet de Microsoft.

7. PrvImage

  • Il s’agit de l’image d’aperçu du document, dans laquelle l’image de la première page est stockée.

8. PrvText

  • Il s’agit du texte d’aperçu du document, dans lequel le contenu de la première page est stocké sous forme de chaîne Unicode.

Conclusion

  • Le format HWP est enregistré sous forme binaire, ce qui le rend difficile à lire directement par un humain, et il est conçu pour n’être consultable et modifiable que dans certains logiciels.
  • À l’inverse, le format HWPX est un format basé sur Open XML, dans lequel les données sont structurées afin que le contenu soit facilement compréhensible par un humain.
  • Dans le prochain article, nous verrons en quoi le format HWPX stocke les informations de manière différente du format HWP.

13 commentaires

 
hahnlee 2025-02-25

Je suis hahnlee, celui qui a développé hwp.js (https://github.com/hahnlee/hwp.js) :)
À l’époque où j’ai développé ce projet, et encore aujourd’hui, je n’aime pas vraiment HWP. Surtout en ce qui concerne son niveau d’ouverture.

En revanche, je suis assez d’accord avec l’idée que « le format HWP possède des éléments avantageux pour l’entraînement de l’IA ».

Pour parler de mon expérience lors de la mise en place d’un RAG, en Corée on utilise particulièrement beaucoup les tableaux. Or, dans le cas du PDF, comme c’est un format conçu en supposant l’impression, il n’y a pas de « tableau » dans un PDF. Il n’y a que des lignes et du texte.

C’est pourquoi il était difficile d’extraire des données à partir d’informations tabulaires complexes sur la base de documents PDF. En particulier lorsque les tableaux s’étendaient sur plusieurs pages.

Pour faire une comparaison un peu grossière, si le HWP donne l’impression d’être une sorte de document en rich text, le PDF ressemblait plutôt à un document txt. Bien sûr, cela ne vaut que pour la question des « tableaux ».

Mais est-ce que c’est un avantage distinctif propre au format HWP ? Je ne le pense pas. Pour les choses simples, Markdown suffit largement, et si c’est un peu plus complexe, je pense qu’il vaut mieux le définir en HTML.

Et surtout, docx et odt ont eux aussi exactement les mêmes avantages.

 
iolothebard 2025-02-25

Après s’être fait complètement écraser par IE, Netscape a publié son code source et s’est mis à réagir après coup avec beaucoup d’énergie.

 
riki3 2025-02-25

Je n’aime pas le hwp et je ne peux pas vraiment dire du bien des produits de l’entreprise Hancom actuelle, mais je pense qu’autrefois, le produit lui-même était un logiciel bien supérieur à Word.

 
kuthia 2025-02-26

Moi aussi, je pense que c’était un excellent logiciel, au moins jusqu’à la sortie de Hangul 97.

 
jwh926 2025-02-25

Hein ?

 
carnoxen 2025-02-25

Une présence malheureuse qui n’est jamais devenue un standard mondial

 
wook3910 2025-02-25

J’ai bien appris le traitement de texte avec Hangul Word Processor, mais j’estime qu’à ce stade, ce n’est plus qu’un vestige qui devrait disparaître pour le progrès de la Corée du Sud.

 
regentag 2025-02-26

Comparé à MS Word ou LibreOffice, je trouvais que Hancom Hangeul était bien plus pratique pour créer des documents avec la mise en forme souhaitée. Et pour la diffusion, il suffisait de les exporter en PDF.

Bien sûr, c’est aussi sans doute parce que j’étais plus habitué à Hangeul.

 
yeorinhieut 2025-02-25

« Le format HWP possède des éléments favorables à l'entraînement de l'IA »

C'est vraiment vrai..?

 
regentag 2025-02-26

L’entraînement de l’IA devrait simplement se concentrer sur les PDF, et pour le hangeul, il vaudrait peut-être mieux faire un bon convertisseur PDF, non ? haha

 
iamchp 2025-02-25

Moi aussi, en lisant ce passage, ça m'a surpris, mais en voyant le domaine de la source originale, j'ai compris mdr

 
jic5760 2025-02-25

Ah, d’accord… je comprends. hahaha

 
doolayer 2025-02-25

Je n’adhère pas vraiment. À la rigueur, s’il s’agissait de hwpx comme mentionné dans l’article, pourquoi pas…