1 points par GN⁺ 2024-05-20 | 1 commentaires | Partager sur WhatsApp
  • L’immensité d’Internet et la disparition des contenus

    • Internet, qui compte des dizaines de milliards de pages web, constitue un immense réservoir de la vie moderne.
    • Mais les contenus sur lesquels les utilisateurs s’appuient disparaissent parfois.
    • Une nouvelle analyse du Pew Research Center montre à quel point les contenus en ligne sont éphémères.
      • Parmi toutes les pages web ayant existé entre 2013 et 2023, un quart n’étaient plus accessibles en octobre 2023.
      • Cela s’explique principalement par la suppression ou le retrait de pages web spécifiques.
  • L’apparition de la dégradation numérique

    • L’étude a examiné les sites gouvernementaux et d’actualités, ainsi que la section « Références » des pages Wikipedia.
      • 23 % des pages d’actualité contiennent au moins un lien brisé.
      • 21 % des sites gouvernementaux contiennent au moins un lien brisé.
      • 54 % des pages Wikipedia contiennent des liens pointant vers des pages qui n’existent plus.
  • La dégradation numérique sur les réseaux sociaux

    • Au printemps 2023, un échantillon en temps réel de tweets a été collecté sur la plateforme sociale X (alors Twitter) et suivi pendant trois mois.
      • Environ un tweet sur cinq n’est plus visible publiquement quelques mois après sa publication.
      • Dans 60 % de ces cas, le compte ayant publié le tweet d’origine est passé en privé, a été suspendu ou a été supprimé.
      • Dans les 40 % restants, le compte existe toujours mais le tweet individuel a été supprimé.
  • Liens privés et définition d’une page web

    • Il existe plusieurs façons de définir une page qui a existé sur Internet mais n’est plus accessible aujourd’hui.
      • La page n’existe plus sur le serveur hôte, ou le serveur hôte lui-même n’existe plus.
      • L’adresse de la page existe toujours, mais son contenu a changé.
      • La page existe, mais elle est difficile à lire pour certains utilisateurs (par exemple les personnes malvoyantes).
    • Ce rapport se concentre sur la première définition : les pages qui n’existent plus.
  • Les pages web des dix dernières années

    • Environ un million de pages web ont été échantillonnées aléatoirement dans les archives de Common Crawl.
      • 25 % de toutes les pages collectées entre 2013 et 2023 n’étaient plus accessibles en octobre 2023.
      • 38 % des pages collectées en 2013 n’étaient plus accessibles en 2023.
  • Les liens des sites gouvernementaux

    • Environ 500 000 pages de sites gouvernementaux collectées en mars/avril 2023 ont été échantillonnées.
      • 86 % des pages contiennent des liens internes, et 6 % de ces liens ne sont plus accessibles.
      • Au total, 21 % des pages web gouvernementales examinées contiennent au moins un lien brisé.
  • Les liens des sites d’actualités

    • Environ 500 000 pages de sites d’actualités collectées en mars/avril 2023 ont été échantillonnées.
      • 94 % des sites d’actualités contiennent au moins un lien externe, et 23 % des pages contiennent au moins un lien brisé.
  • Les liens de référence de Wikipedia

    • 50 000 pages de Wikipedia en anglais ont été échantillonnées aléatoirement.
      • 82 % des pages collectées contiennent au moins un lien de référence, et 11 % de ces liens de référence ne sont plus accessibles.
  • Les publications sur Twitter

    • Cinq millions de tweets ont été collectés au printemps 2023 et suivis pendant trois mois.
      • 18 % des tweets collectés n’étaient plus visibles publiquement à la fin de la période de suivi.
      • Parmi les tweets supprimés, 60 % correspondent à des comptes passés en privé, suspendus ou supprimés.
      • 1 % des tweets sont supprimés dans l’heure, 3 % dans la journée, 10 % dans la semaine et 15 % dans le mois.
  • Analyse de survie des tweets

    • La moitié des tweets qui disparaissent le font dans les six premiers jours suivant leur publication.
    • 90 % des tweets deviennent inaccessibles dans les 46 jours suivant leur publication.
    • Il existe 6 % de tweets supprimés qui ont ensuite été rendus de nouveau publics.

1 commentaires

 
GN⁺ 2024-05-20
Avis Hacker News

Résumé d’une sélection de commentaires Hacker News

  • Problèmes des pages Facebook

    • De nombreuses organisations et entreprises n’utilisent qu’une page Facebook et n’ont aucune autre présence sur le web. Un compte Facebook est alors indispensable.
  • Efforts d’archivage

    • Des sites comme CNN et BBC font des efforts pour archiver leurs anciens contenus. Exemple : la couverture des attentats du 11 septembre.
  • Soutien à Internet Archive

    • Il est nécessaire de faire des dons à Internet Archive (archive.org) pour soutenir la préservation des anciens contenus. Il est aussi préférable de conserver une copie locale des contenus importants.
  • Expérience d’exploitation d’un site d’actualités

    • Depuis 2019, une personne exploite un site d’actualités et utilise un crawler toutes les heures pour repérer les liens morts et les remplacer par des liens d’archive. Il arrive souvent que les sites web des candidats disparaissent dès le lendemain d’une élection.
  • Graphique sur la durée de vie des sites web

    • On peut supposer que de nombreux sites web ont disparu depuis 2013. La disparition de sites communautaires, notamment Angelfire et Geocities, y a fortement contribué. Un graphique représentant la durée de vie des sites web serait intéressant.
  • Problèmes des anciens sites web

    • Quelqu’un a revu son premier site .com, hébergé sur Angelfire dans les années 90. Cela semblait acceptable à l’époque, mais contient aujourd’hui beaucoup d’éléments inappropriés selon les standards actuels.
  • Le caractère éphémère d’Internet

    • Il faut accepter le caractère intrinsèquement éphémère d’Internet. Si l’on veut archiver quelque chose, il vaut mieux en faire une copie hors ligne. Le format PDF/A est adapté à l’archivage.
  • Problème de SEO

    • Une grande partie du web actuel est remplie de spam SEO.
  • Problème des liens brisés

    • C’est un problème majeur d’Internet : le contenu existe encore, mais le lien est souvent cassé. Un système à deux niveaux, comme le système DOI des bibliothèques, pourrait aider.
  • Importance de l’oubli et du pardon

    • Un monde où tout resterait pour toujours serait effrayant. Il faut faire des efforts pour préserver les contenus qui en valent la peine, et cette valeur en est d’autant plus appréciée.