1 points par GN⁺ 2024-05-20 | 1 commentaires | Partager sur WhatsApp
  • Même si le Web peut sembler être une archive permanente, dans l’échantillon du Pew Research Center, 25 % des pages web ayant existé à un moment donné entre 2013 et 2023 avaient disparu en octobre 2023, et 38 % des pages de 2013 étaient inaccessibles
  • Dans ce décompte, le terme inaccessible ne désigne pas des changements de contenu ni des problèmes d’accessibilité, mais se limite à 9 codes d’erreur indiquant clairement que la page ou le serveur hôte a disparu
  • Lors d’une vérification des liens de sites gouvernementaux, d’actualités et de Wikipedia au printemps 2023, 23 % des pages d’actualités, 21 % des pages gouvernementales et 54 % des pages de la Wikipedia en anglais contenaient au moins un lien cassé
  • Après le suivi pendant 3 mois d’environ 5 millions de tweets publics sur X, alors appelé Twitter, 18 % n’étaient plus visibles publiquement, dont 60 % en raison du passage du compte en privé, de sa suspension ou de sa suppression
  • Les contenus disparaissent sur l’ensemble des pages web, documents d’organismes publics, liens d’actualités, références Wikipedia et publications sociales, et plus les ressources sont anciennes, plus la dégradation numérique est manifeste

Les pages web disparues en 10 ans

  • Internet sert de dépôt pour des ressources de la vie moderne comme les livres, les images et les articles de presse, mais certains contenus deviennent invisibles avec le temps
  • Le Pew Research Center a vérifié, en octobre 2023, l’accessibilité d’un échantillon de pages web ayant existé entre 2013 et 2023
  • Dans l’ensemble de l’échantillon, 25 % des pages web ayant existé à un moment donné n’étaient plus accessibles
    • Pour 16 %, le domaine racine fonctionnait encore, mais la page individuelle était inaccessible
    • Pour 9 %, l’ensemble du domaine racine ne fonctionnait plus et était donc inaccessible
  • Plus les pages web étaient anciennes, plus leur taux de disparition était élevé
    • Parmi les pages web de l’instantané de 2013, 38 % étaient inaccessibles en 2023
    • Parmi les pages web de l’instantané de 2023, 8 % étaient inaccessibles
    • Même parmi les pages web de l’instantané de 2021, environ un cinquième étaient inaccessibles deux ans plus tard

Critères utilisés pour juger une page inaccessible

  • Dans cette analyse, le terme inaccessible se limite aux cas où la page n’existe plus
    • Cela correspond aux cas où le serveur hôte ou la page a disparu, entraînant généralement une erreur serveur comme 404 Not Found
  • Les cas suivants sortent du périmètre de cette étude
    • L’adresse de la page existe, mais son contenu a beaucoup changé par rapport à l’original
    • La page existe, mais elle est difficile ou impossible à lire pour certains utilisateurs, par exemple les personnes malvoyantes
  • L’évaluation de l’état d’une page web conserve une part d’ambiguïté
    • Il existe des dizaines de codes d’état d’erreur, et certains ne permettent pas de savoir clairement s’il s’agit d’une disparition permanente ou d’une panne temporaire
    • De nombreux sites bloquent la collecte automatisée de données pour des raisons de sécurité
  • Un critère très conservateur a donc été appliqué : seuls 9 codes d’erreur indiquant clairement que la page ou le serveur hôte n’existe plus ou ne fonctionne plus ont été comptabilisés comme inaccessibles
  • La liste complète des codes d’erreur figure dans la méthodologie

Échantillon de pages web basé sur Common Crawl

  • L’analyse a été menée en collectant aléatoirement, pour chaque année de 2013 à 2023, des pages web depuis le service d’archivage Internet Common Crawl
  • L’échantillon total comptait un peu moins de 1 million de pages web, avec environ 90 000 pages par année
  • En octobre 2023, 25 % de l’ensemble de l’échantillon 2013-2023 était inaccessible
  • Les pages inaccessibles se répartissaient en deux catégories
    • La page individuelle avait disparu, mais le domaine racine fonctionnait encore : 16 %
    • L’ensemble du domaine racine ne fonctionnait plus : 9 %
  • Plus l’instantané était ancien, plus la proportion de pages inaccessibles était élevée, et 38 % des pages web de 2013 n’existaient plus

Liens cassés sur les sites gouvernementaux

  • L’analyse des sites gouvernementaux s’est appuyée sur un échantillon d’environ 500 000 pages issues des instantanés Common Crawl de mars-avril 2023
  • L’échantillon comprenait des sites gouvernementaux de différents niveaux, notamment fédéral, étatique et local
  • Au total, 42 millions de liens ont été trouvés sur les pages web gouvernementales
    • 86 % étaient des liens internes pointant vers d’autres pages du même site web
    • Environ trois quarts des pages web gouvernementales contenaient au moins un lien
    • Le nombre médian de liens par page était de 50
    • Les 10 % de pages les plus riches en liens en contenaient 190, et le 1 % supérieur en contenait 740
  • La forme des liens a également été examinée
    • La grande majorité pointait vers des pages HTTP sécurisées commençant par https://
    • 6 % pointaient vers des fichiers statiques comme des PDF
    • 16 % étaient redirigés vers une URL différente de celle initialement ciblée
  • Après vérification en suivant les liens, 6 % des liens de sites gouvernementaux n’étaient plus accessibles
  • 21 % de l’ensemble des pages web gouvernementales examinées contenaient au moins un lien cassé
    • Les proportions de liens internes et externes non fonctionnels étaient similaires
    • À tous les niveaux de gouvernement, au moins 14 % des pages contenaient des liens cassés
    • Les pages des municipalités affichaient la proportion la plus élevée de liens cassés

Liens cassés sur les sites d’actualités

  • L’analyse des sites d’actualités s’est appuyée sur un échantillon d’environ 500 000 pages issues de 2 063 sites web classés par comScore dans la catégorie “News/Information”
  • Les pages ont été collectées depuis les instantanés Common Crawl de mars-avril 2023
  • L’échantillon de sites d’actualités contenait plus de 14 millions de liens vers des sites externes
    • Les liens internes n’ont pas été collectés et leur fonctionnement n’a pas été vérifié
    • 94 % des pages d’actualités contenaient au moins un lien externe
    • Le nombre médian de liens par page était de 20
    • Les 10 % de pages comptant le plus de liens en contenaient 56
  • La grande majorité des liens des sites d’actualités pointaient vers des pages HTTP sécurisées commençant par https://
    • Environ 12 % pointaient vers des fichiers statiques comme des PDF
    • 32 % étaient redirigés vers une URL différente de l’URL initiale
    • Le taux de redirection des liens externes des sites gouvernementaux était de 39 %
  • Après suivi des liens des sites d’actualités, 5 % de l’ensemble des liens étaient inaccessibles
  • 23 % des pages d’actualités de l’échantillon contenaient au moins un lien cassé
    • Parmi les pages des sites d’actualités situés dans les 20 % les plus importants en trafic, 25 % contenaient au moins un lien cassé
    • Parmi les pages des sites d’actualités situés dans les 20 % les moins importants en trafic, 26 % contenaient au moins un lien cassé
    • La différence de proportion de liens cassés selon le volume de trafic était très faible

Liens de références Wikipedia

  • L’analyse a collecté aléatoirement 50 000 pages de la Wikipedia en anglais et vérifié les liens de la section “References”
  • 82 % des pages de l’échantillon contenaient au moins un lien de référence pointant vers une page web externe à Wikipedia
  • L’échantillon total contenait un peu plus de 1 million de liens de références
  • Une page typique comptait 4 liens de références
  • 11 % de l’ensemble des liens de références Wikipedia n’étaient plus accessibles
  • Parmi les pages sources contenant des liens de références, environ 2 % avaient tous leurs liens cassés ou inaccessibles
  • 53 % supplémentaires de ces pages contenaient au moins un lien cassé

Disparition des publications X/Twitter

  • L’analyse des réseaux sociaux a été menée en collectant en temps réel environ 5 millions de tweets publics sur X, alors appelé Twitter, entre le 8 mars et le 27 avril 2023
  • La collecte a utilisé la Twitter Streaming API, avec 3 000 tweets publics récupérés toutes les 30 minutes
  • Le suivi s’est poursuivi jusqu’au 15 juin 2023, en vérifiant chaque jour si chaque tweet restait accessible sur le site
  • À la fin de la période d’observation, 18 % des tweets collectés initialement n’étaient plus visibles publiquement
    • 60 % correspondaient à des cas où le compte d’origine était passé en privé, avait été suspendu ou supprimé
    • 40 % correspondaient à des cas où le compte existait encore, mais où le tweet individuel avait été supprimé

Caractéristiques des tweets qui ont disparu plus souvent

  • Les tweets rédigés dans certaines langues étaient plus susceptibles de disparaître
    • Près de la moitié des tweets en turc n’étaient plus accessibles à la fin du suivi
    • Les tweets en arabe ont également disparu à un taux légèrement inférieur
    • En résumé, plus de 40 % des tweets en turc ou en arabe sont devenus invisibles en moins de 3 mois
  • Les tweets de comptes utilisant les réglages de profil par défaut disparaissaient aussi plus souvent
    • Plus de la moitié des tweets de comptes utilisant l’image de profil par défaut n’étaient plus accessibles
    • Plus de un tiers des tweets de comptes utilisant le champ de bio par défaut n’étaient plus accessibles
    • Les tweets de ces comptes avaient tendance à disparaître davantage à cause de la suppression du compte ou de son passage en privé que par suppression individuelle du tweet
  • Les tweets de comptes non certifiés étaient également plus susceptibles d’être supprimés ou retirés
  • Les tweets disparus étaient généralement plus récents et publiés par des comptes ayant relativement peu d’abonnés et un niveau d’activité modéré
    • Les comptes ayant publié des tweets devenus invisibles étaient en moyenne environ 8 mois plus récents que ceux ayant publié des tweets restés visibles
  • Les retweets, tweets cités et tweets originaux ne présentaient pas de différence notable par rapport à la moyenne globale
  • Les réponses étaient relativement moins souvent retirées, avec un taux d’inaccessibilité de 12 % à la fin du suivi

Vitesse de disparition et réapparition des tweets

  • La plupart des tweets retirés disparaissaient assez rapidement après leur publication
  • Selon l’analyse de survie, le calendrier de retrait des tweets était le suivant
    • 1 % étaient retirés dans l’heure suivant la publication
    • 3 % étaient retirés dans la journée
    • 10 % étaient retirés dans la semaine
    • 15 % étaient retirés dans le mois
  • La moitié des tweets finalement retirés devenaient inaccessibles dans les 6 jours suivant leur publication
  • 90 % des tweets finalement retirés devenaient inaccessibles dans les 46 jours suivant leur publication
  • Les tweets ne disparaissent pas toujours définitivement
    • 6 % des tweets collectés ont disparu puis sont redevenus accessibles plus tard
    • Cela peut s’expliquer par des comptes passés en privé puis redevenus publics, ou suspendus puis rétablis
    • 90 % des tweets réapparus étaient encore accessibles sur Twitter à la fin du suivi

1 commentaires

 
GN⁺ 2024-05-20
Avis sur Hacker News
  • Le problème plus grave que la disparition de 38 % des pages web, c’est que beaucoup d’organisations, de groupes et d’entreprises n’utilisent désormais presque plus que des pages Facebook, sans aucune présence web en dehors de Facebook.
    Au final, pour interagir avec eux, un compte Facebook devient indispensable.

    • Les forums ont subi le même sort.
      Tout a désormais migré vers des subreddits, des groupes Facebook et des chats Discord, et c’est vraiment dommage de voir des informations précieuses cachées dans ces groupes.
    • Je n’utilise Facebook que pour rester en contact avec de la famille dispersée un peu partout.
      Je regarde ce qui se passe une fois par jour environ, et si vous avez un compte, ce lien facilite beaucoup cette tâche : https://www.facebook.com/?filter=friends
    • Je me demande s’il existe vraiment des entreprises d’une certaine taille qui n’utilisent que Facebook.
      Dans ma région, les commerces locaux ont pas mal d’informations sur Google Maps et, même quand ils ont un site web, il est souvent daté, mais un appel direct suffit généralement à obtenir les réponses voulues.
    • Les 38 % de l’ancien web formaient un espace varié, avec moins d’arrière-pensées, créé par des amateurs au bon sens du terme.
      Aujourd’hui, le web est beaucoup plus vaste mais aussi bien plus homogène ; cette proportion est probablement autour de 0,00001 %, et je trouve que les sites Web 1.0 étaient meilleurs que les « pages de groupe » fermées d’aujourd’hui.
    • Je suis déjà allé dans un restaurant dont le menu numérique était publié uniquement sur Facebook.
      Quand j’ai dit que je n’utilisais pas Facebook, on m’a regardé comme si j’étais quelqu’un de bizarre.
  • Les bons sites web font tout de même un minimum d’efforts pour préserver les anciens contenus.
    Par exemple, les pages de CNN et de la BBC couvrant les attentats du 11 septembre existent encore : http://news.bbc.co.uk/hi/english/static/in_depth/americas/20...
    http://edition.cnn.com/SPECIALS/2001/trade.center/index.html
    Il ne faut pas s’attendre à ce que beaucoup de liens fonctionnent correctement, mais c’est déjà intéressant de voir à quoi ressemblait le web à l’époque.

    • Certains éléments interactifs d’anciennes couvertures électorales de la BBC fonctionnent encore à peu près aujourd’hui.
      Il est difficile d’imaginer que beaucoup de sites actuels subsisteront ainsi dans 20 ans, et cela ne semble pas tant dû à une impossibilité technique qu’à quelque chose de comparable à la baisse de qualité de l’écriture après l’invention du traitement de texte.
      Aujourd’hui, tout est administré et structuré, et on a l’impression que la liberté et le foisonnement qui permettaient de créer de bonnes choses d’une façon difficile à expliquer ont disparu.
  • Pour soutenir les efforts de préservation, non seulement des anciens contenus mais aussi de nombreux autres contenus, donner ne serait-ce que quelques livres à Internet Archive (archive.org) est une bonne idée.
    Et pour tout ce que vous jugez précieux, il vaut mieux en faire autant que possible une copie locale, au cas où cela disparaîtrait un jour.
    Une bonne partie des pages techniques de mon fichier de favoris, que je trimballe depuis plus de 20 ans d’installation en installation, pointent désormais vers la dernière sauvegarde complète juste avant la disparition de la page d’origine.
    Internet Archive est un immense bénéfice pour tout le monde.

    • J’ai fini par comprendre que j’utilisais beaucoup trop les favoris.
      Désormais, quand je tombe sur un texte perspicace, une information technique ou de l’humour que je veux consulter plus tard, j’enregistre la page web en PDF ou dans un autre format.
      Les favoris conviennent surtout à ce qui ne vaut la peine d’être consulté que dans sa version la plus récente : sites bancaires, sites d’achat, systèmes de bureau à distance d’entreprise, ce genre de choses.
    • J’aimerais qu’Internet Archive soit scindée en deux entités indépendantes.
      L’une se contenterait de préserver les sites web, tandis que l’autre gérerait le reste, comme les tests agressifs des droits de propriété intellectuelle sur les ebooks ou les jeux vidéo.
      Ainsi, même si « l’autre côté » s’effondrait sous les procès, la préservation des sites web pourrait survivre. Le premier service est important pour l’humanité, c’est pourquoi je fais des dons, mais son avenir m’inquiète.
  • Je gère un site d’actualité depuis 2019.
    Toutes les heures, un crawler cherche les liens morts, et j’en remplace environ un par jour par un lien archive.org.
    Le plus drôle, ce sont les sites de candidats qui deviennent tous des pages blanches le lendemain d’une élection ; le plus triste, ce sont les sites gouvernementaux qui tombent chaque semaine entre 3 h et 5 h du matin.

    • Intéressant : ce crawler vérifie-t-il tous les liens toutes les heures, ou bien les traite-t-il par lots ?
  • Je suis plutôt surpris que le chiffre ne soit pas plus élevé.
    En 2013, l’époque des sites amateurs du début d’Internet était déjà loin derrière nous, et la plupart des nouveaux sites avaient un objectif commercial.
    Vu la durée de vie des entreprises, je m’attendais à ce que beaucoup plus de sites aient disparu 11 ans plus tard.
    Peut-être que la disparition massive d’espaces de création communautaires comme Angelfire ou Geocities pèse lourd dans le total.
    Il serait particulièrement intéressant de voir un graphique de la longévité des sites web. Il reste pas mal de contenus très anciens, et je pense que le pic des disparitions de sites se situe autour de 2008-2018.

    • Une grande partie des premiers contenus se trouvait déjà sur des plateformes mortes depuis longtemps.
      Par exemple Geocities, les dossiers FTP fournis par les universités puis supprimés après l’obtention du diplôme, ou les dossiers FTP fournis par des FAI comme Earthlink, Juno ou Comcast ; il est très probable que la plupart aient été supprimés.
  • Je préférerais que tout ne reste pas éternellement en ligne.
    Il y a quelque temps, je suis tombé par hasard sur mon premier .com, créé dans les années 90 : il était hébergé sur Angelfire, archive.org l’avait consciencieusement conservé à nouveau, et le résultat était exactement ce que vous imaginez.
    C’était une page web créée avec un ami quand j’étais en CM1 ; pour l’époque, ce n’était pas si mal, mais selon les critères actuels, même en tenant compte du contexte, certains contenus ne passaient pas.
    Ce n’était pas horrible, mais c’était de mauvais goût, né de l’ignorance innocente typique d’un écolier des années 90, et comme cela ne s’effacera sans doute jamais complètement de ma conscience, je n’ai plus qu’à faire avec et espérer que personne ne le voie.

    • J’ai aussi des archives du même genre.
      Si ça peut consoler, nous étions tous simplement des enfants ou des adolescents, en train d’apprendre le monde.
      La génération qui nous suit me fait encore plus de peine, car elle a grandi une fois qu’Internet était devenu plus accessible et parfois plus permanent.
    • Je comprends cette douleur.
      Heureusement, archive accepte parfois aussi de retirer des contenus.
  • Tout sur Internet est par nature éphémère.
    Mieux vaut l’accepter que lutter contre, et si l’on veut conserver quelque chose, il suffit d’en faire une copie hors ligne.
    PDF/A, en particulier les versions -1 et -2, est un format explicitement conçu pour la préservation, et il convient bien aux contenus statiques.
    Cela dit, il est dommage que la mise en miroir ne soit pas intégrée plus facilement à la pile web, c’est-à-dire HTTP/HTML. Si l’on pouvait créer simplement des liens incluant une copie locale comme chemin de repli, le pourrissement des liens serait beaucoup moins préoccupant.
    La manière dont Wikipédia fait passer tous ses liens par archive.org me semble personnellement un peu bricolée.

  • Franchement, je suis surpris que ce chiffre soit aussi bas.
    De nos jours, la majeure partie du web ressemble à du déchet d’optimisation pour les moteurs de recherche.

    • Il m’arrive parfois de faire une expérimentation, de mettre en ligne un petit site web, puis de l’oublier et de le retirer quand j’estime qu’il n’est plus pertinent.
      Ce n’est pas mauvais en soi.
      Cela dit, c’est formidable qu’il existe des archives du web qui préservent notre mémoire collective pour les contenus qui en valent la peine.
      J’aimerais notamment que les traces exactes écrites au moment où les événements se produisent soient conservées quelque part où elles ne puissent pas être modifiées plus tard. Réécrire l’histoire semble assez en vogue ces temps-ci, et préserver les documents originaux de l’époque permet d’y résister.
      Même si ces traces n’étaient pas totalement exactes, elles aident à comprendre ce que les acteurs de l’époque croyaient être vrai.
    • Certaines choses existent toujours, mais ne sont tout simplement plus exposées par Google.
  • Je vois cela comme un grave échec d’Internet que nous aurions collectivement dû mieux éviter.
    Dans la plupart des cas, le contenu lui-même est probablement encore quelque part, et seuls les liens sont cassés.
    Un système à deux niveaux comme le système DOI utilisé par les bibliothèques pourrait aider dans ce genre de cas : https://nuim.libguides.com/referencing/DigitalObjectIdentifi...
    Mais pour conserver l’utilité et la commodité des URL, il faudrait que ce soit géré automatiquement, et je ne vois pas très bien comment ce serait possible.

  • Ce n’est pas un bug, c’est une fonctionnalité.
    Il serait terrible de vivre dans un monde qui n’oublie ni ne pardonne.
    J’aime aussi le fait qu’il faille un certain effort pour préserver les contenus de valeur. Cela leur donne davantage de reconnaissance.

    • « Un monde qui n’oublie ni ne pardonne » est un problème distinct, qui relève surtout de la vie privée.
      L’idée selon laquelle « les contenus de valeur devraient nécessiter un effort de préservation pour que leur valeur soit mieux reconnue » ressemble à un argument en faveur du fait que presque tout devrait être cher.
      Comme si le stockage bon marché était mauvais parce qu’il nous ferait cesser de reconnaître la valeur des fichiers, tandis que les soins médicaux coûteux seraient bons parce qu’ils nous feraient prendre conscience de la valeur de nos organes.
      La difficulté, c’est de prévoir quels contenus seront jugés précieux à l’avenir. Jusqu’ici, aucune civilisation humaine n’a vraiment su le faire, et elles se sont généralement concentrées sur la préservation de récits expliquant à quel point les rois étaient grands.
    • Le jour où Apple a racheté NeXT, j’ai lu quelque part sur Internet un texte très drôle.
      Il commençait par « Enfants du Macintosh, agenouillez-vous devant Unix… », et tout le texte gardait un style biblique pour expliquer pourquoi le Mac avait été conquis par NeXT.
      C’était vraiment excellent, et il m’arrive de le rechercher à nouveau sur Internet, mais il est difficile de savoir ce qui a disparu quand on ne sait pas quoi chercher.
    • Où pensez-vous que nous avons vécu ces cinq derniers millénaires ?
      Il existe des tablettes d’argile en écriture cunéiforme exhumées des tas d’ordures d’Ur, et c’est grâce à elles que le peu que nous savons de Sumer nous est parvenu.
      L’invention de l’écriture a rendu l’oubli impossible, et des anthropologues comme Jack Goody, James Carey, David Olson et Barry Powell, ainsi que des auteurs comme Walter Ong, l’ont étudié en profondeur.
      Nous vivons en réalité dans un monde terrible, en grande partie prisonnier du passé, où la complexité culturelle s’accumule en couches comme les pelures d’un oignon.
      Tout le monde peut revenir au passé et en avoir la nostalgie, mais le passé auquel on accède par le savoir conservé prend des significations différentes pour ceux qui ne l’ont pas vécu directement.
      Depuis l’imprimerie, nous vivons dans une inflation de l’information continue. Les érudits médiévaux se plaignaient qu’à cause de l’imprimerie n’importe qui pouvait lire et écrire des livres, les scolastiques étaient choqués par l’essor des langues vernaculaires, et Michelangelo se plaignait de l’art creux des peintres Flemish.
      Ce qui importe ici, c’est la vitesse à laquelle la dégradation se produit. L’article dit que 38 % des sites qui existaient en 2013 ont disparu, et cela en seulement dix ans.
      Nous ne savons pas quelle part relevait du bruit, et quelle part constituait une information utile, ou au moins un contenu intéressant. C’est déjà disparu.
      Nous ne savons pas non plus combien les grands scrapers du web ont sauvegardé, ni combien Google ou Twitter conservent.
      Comment définir un contenu de valeur ? Est-ce un tweet avec une photo d’actrice à moitié dénudée et un million de vues, ou un tweet sur une découverte majeure avec 300 vues ?
      Quand Internet a renversé les gardiens qu’étaient les rédacteurs de journaux, de livres, de magazines, de télévision et de radio, nous nous en sommes réjouis sans réserve, mais le résultat, c’est que nous avons été submergés par le bruit, les théories du complot, les mèmes, TikTok, etc.
      Le problème est que nous gérons très mal l’énorme quantité d’informations qui nous tombe dessus, qu’il y a trop de monde et des goûts trop différents pour s’accorder sur ce qui a de la valeur ou non.
      La « fonctionnalité » dont vous parlez peut être voulue par conception, mais cela ne signifie pas qu’elle soit utile ni moralement juste.