1 points par GN⁺ 2024-02-14 | 1 commentaires | Partager sur WhatsApp

Tentative d’ouverture du fichier original de la proposition WWW

  • Le site du W3C contient la proposition originale du WWW rédigée par Tim Berners-Lee.
  • Le fichier source de la proposition est un fichier Word pour Macintosh 4.0, vraisemblablement créé en 1990.
  • Le document original pèse 68 608 octets et, après vérification du type de fichier sur Mac, il apparaît comme un fichier Microsoft Word for Macintosh 4.0.

Tentatives d’ouverture avec différents logiciels

  • Microsoft Word : le fichier original a été téléversé sur OneDrive puis ouvert dans Microsoft Word avec l’extension .doc.
  • Apple Pages : ne comprend pas les anciens fichiers Microsoft Word for Macintosh.
  • Apache OpenOffice : peut ouvrir le fichier, mais la mise en forme disparaît et les diagrammes sont absents.
  • LibreOffice : ouvre le fichier et affiche aussi clairement les diagrammes, mais il subsiste des problèmes de marges et d’autres écarts de formatage.

Comparaison entre le PDF du CERN et le PDF généré par LibreOffice

  • Le PDF fourni par le CERN a été généré en 1998 et compte 20 pages.
  • La version importée dans LibreOffice en compte 24.
  • En comparant les deux PDF, on constate des différences de marges, de taille de police, d’en-têtes et de pieds de page, ainsi que de pagination.

Vérification du document original via émulation

  • En émulant un Macintosh des années 1990, l’auteur a pu exécuter le véritable Word for Macintosh 4.0 et voir à quoi ressemblait le document original.
  • Le document original et le PDF du CERN diffèrent sensiblement, et le document original apparaît sur 22 pages au format A4.

Conclusion

  • Convertir le document original avec des logiciels modernes constitue à la fois une victoire pour les logiciels open source et une démonstration des difficultés de la préservation documentaire.
  • Une version .odt a été téléversée sur GitHub afin de préserver le document.
  • Il est quelque peu décevant qu’un document vieux de 34 ans reste difficile à ouvrir et que, même une fois ouvert, il ne soit pas exactement identique à l’original.

L’avis de GN⁺

  • Ce billet de blog souligne l’importance de la préservation numérique et de l’accessibilité du document original de la proposition WWW.
  • Il montre à quel point les logiciels open source jouent un rôle essentiel dans le traitement des anciens formats de documents.
  • Cela aide à comprendre les difficultés de la préservation documentaire et à prendre conscience de l’importance de la compatibilité et de l’accessibilité à long terme à mesure que la technologie évolue.

1 commentaires

 
GN⁺ 2024-02-14
Avis Hacker News
  • Partage d’un document converti dans un format Word moderne

    • Un document converti dans un format Word moderne a été partagé, avec l’ensemble des illustrations vectorielles et des polices préservées.
    • Pour convertir le document, il a d’abord été ouvert puis réenregistré avec Word 98 tournant sur un Power Mac émulé via QEMU.
    • Cependant, les images étaient absentes, et Word affirmait ne pas disposer de suffisamment de mémoire ou d’espace disque pour les afficher ou les imprimer.
    • Pour restaurer les images, le document a été imprimé en PDF depuis Word 98 avec Acrobat, puis chaque image a été extraite dans un PDF séparé à l’aide d’Adobe Illustrator.
    • Il a ensuite été simple de supprimer les images d’origine et de restaurer les images en faisant glisser-déposer les remplacements PDF depuis le Finder.
    • À titre de comparaison, ont été partagés un PDF créé avec Word 98 sur Power Mac et un PDF créé avec une version moderne de Word tournant sur macOS Sonoma.
  • Vérification des polices et de la mise en page

    • Disposer des polices d’origine permet de vérifier à quoi le document est censé ressembler.
    • Word 4.0 utilisait des fichiers de police distincts pour l’écran et pour l’imprimante selon les différentes résolutions de sortie.
    • Si la police d’imprimante manquait, il imprimait un rendu mis à l’échelle de la police écran, et si la police écran manquait, elle était remplacée par la police système.
    • Dans ce cas, les polices bien connues Palatino et Courier étaient nécessaires, mais LibreOffice les a remplacées par Times New Roman alors même que Palatino Linotype était installée.
  • Utilité de la commande file

    • La commande file est très utile pour lever les doutes sur un fichier et fournir des informations utiles.
  • Excellente prise en charge des anciens formats de fichiers de documents par LibreOffice

    • LibreOffice prend très bien en charge les anciens formats de fichiers de documents, ce qui explique son utilisation ici.
    • L’usage des émulateurs BasiliskII et InfiniteMac est également agréable.
  • Rétrocompatibilité de Microsoft Word

    • Le fichier s’ouvre en grande partie correctement dans la version Windows de Word, et la mise en page est identique au PDF de l’article.
    • Les images n’ont pas pu être ouvertes en raison de l’absence du filtre graphique, mais cela devrait être possible avec Word 2003.
  • Les capacités étonnantes de LibreOffice

    • LibreOffice ne se contente pas d’ouvrir divers formats de documents, il permet aussi d’automatiser des tâches via des options en ligne de commande.
  • Impression de documents dans un émulateur

    • Sur un émulateur exécutant Mac 4.0, il est possible d’installer une file d’impression capable de générer des fichiers .ps (Postscript), qui peuvent ensuite être convertis en PDF.
  • Déception vis-à-vis de la compatibilité documentaire de Microsoft Word

    • Certains estiment que Microsoft devrait avoir la responsabilité de pouvoir ouvrir un document quel que soit la version de Word avec laquelle il a été créé.
    • S’il existe des inquiétudes liées aux vulnérabilités, une fonctionnalité devrait être fournie pour exécuter la conversion vers une nouvelle version dans un sandbox isolé dans un processus externe.
  • Problèmes potentiels des sauvegardes à conservation illimitée

    • Certaines entreprises disposent de sauvegardes à conservation illimitée, ce qui crée des problèmes liés à une mauvaise compréhension de la différence entre « lisible » et « exploitable ».
  • Utilisation d’anciens Mac et de Word

    • Quelqu’un possède un Mac SE/30 sous System 7.1 avec Word 5 installé, et peut aider à faire une mise à niveau du document vers Office 2001 si on lui l’envoie.