-
L’immensité d’Internet et la disparition des contenus
- Internet, qui compte des dizaines de milliards de pages web, constitue un immense réservoir de la vie moderne.
- Mais les contenus sur lesquels les utilisateurs s’appuient disparaissent parfois.
- Une nouvelle analyse du Pew Research Center montre à quel point les contenus en ligne sont éphémères.
- Parmi toutes les pages web ayant existé entre 2013 et 2023, un quart n’étaient plus accessibles en octobre 2023.
- Cela s’explique principalement par la suppression ou le retrait de pages web spécifiques.
-
L’apparition de la dégradation numérique
- L’étude a examiné les sites gouvernementaux et d’actualités, ainsi que la section « Références » des pages Wikipedia.
- 23 % des pages d’actualité contiennent au moins un lien brisé.
- 21 % des sites gouvernementaux contiennent au moins un lien brisé.
- 54 % des pages Wikipedia contiennent des liens pointant vers des pages qui n’existent plus.
- L’étude a examiné les sites gouvernementaux et d’actualités, ainsi que la section « Références » des pages Wikipedia.
-
La dégradation numérique sur les réseaux sociaux
- Au printemps 2023, un échantillon en temps réel de tweets a été collecté sur la plateforme sociale X (alors Twitter) et suivi pendant trois mois.
- Environ un tweet sur cinq n’est plus visible publiquement quelques mois après sa publication.
- Dans 60 % de ces cas, le compte ayant publié le tweet d’origine est passé en privé, a été suspendu ou a été supprimé.
- Dans les 40 % restants, le compte existe toujours mais le tweet individuel a été supprimé.
- Au printemps 2023, un échantillon en temps réel de tweets a été collecté sur la plateforme sociale X (alors Twitter) et suivi pendant trois mois.
-
Liens privés et définition d’une page web
- Il existe plusieurs façons de définir une page qui a existé sur Internet mais n’est plus accessible aujourd’hui.
- La page n’existe plus sur le serveur hôte, ou le serveur hôte lui-même n’existe plus.
- L’adresse de la page existe toujours, mais son contenu a changé.
- La page existe, mais elle est difficile à lire pour certains utilisateurs (par exemple les personnes malvoyantes).
- Ce rapport se concentre sur la première définition : les pages qui n’existent plus.
- Il existe plusieurs façons de définir une page qui a existé sur Internet mais n’est plus accessible aujourd’hui.
-
Les pages web des dix dernières années
- Environ un million de pages web ont été échantillonnées aléatoirement dans les archives de Common Crawl.
- 25 % de toutes les pages collectées entre 2013 et 2023 n’étaient plus accessibles en octobre 2023.
- 38 % des pages collectées en 2013 n’étaient plus accessibles en 2023.
- Environ un million de pages web ont été échantillonnées aléatoirement dans les archives de Common Crawl.
-
Les liens des sites gouvernementaux
- Environ 500 000 pages de sites gouvernementaux collectées en mars/avril 2023 ont été échantillonnées.
- 86 % des pages contiennent des liens internes, et 6 % de ces liens ne sont plus accessibles.
- Au total, 21 % des pages web gouvernementales examinées contiennent au moins un lien brisé.
- Environ 500 000 pages de sites gouvernementaux collectées en mars/avril 2023 ont été échantillonnées.
-
Les liens des sites d’actualités
- Environ 500 000 pages de sites d’actualités collectées en mars/avril 2023 ont été échantillonnées.
- 94 % des sites d’actualités contiennent au moins un lien externe, et 23 % des pages contiennent au moins un lien brisé.
- Environ 500 000 pages de sites d’actualités collectées en mars/avril 2023 ont été échantillonnées.
-
Les liens de référence de Wikipedia
- 50 000 pages de Wikipedia en anglais ont été échantillonnées aléatoirement.
- 82 % des pages collectées contiennent au moins un lien de référence, et 11 % de ces liens de référence ne sont plus accessibles.
- 50 000 pages de Wikipedia en anglais ont été échantillonnées aléatoirement.
-
Les publications sur Twitter
- Cinq millions de tweets ont été collectés au printemps 2023 et suivis pendant trois mois.
- 18 % des tweets collectés n’étaient plus visibles publiquement à la fin de la période de suivi.
- Parmi les tweets supprimés, 60 % correspondent à des comptes passés en privé, suspendus ou supprimés.
- 1 % des tweets sont supprimés dans l’heure, 3 % dans la journée, 10 % dans la semaine et 15 % dans le mois.
- Cinq millions de tweets ont été collectés au printemps 2023 et suivis pendant trois mois.
-
Analyse de survie des tweets
- La moitié des tweets qui disparaissent le font dans les six premiers jours suivant leur publication.
- 90 % des tweets deviennent inaccessibles dans les 46 jours suivant leur publication.
- Il existe 6 % de tweets supprimés qui ont ensuite été rendus de nouveau publics.
1 commentaires
Avis Hacker News
Résumé d’une sélection de commentaires Hacker News
Problèmes des pages Facebook
Efforts d’archivage
Soutien à Internet Archive
Expérience d’exploitation d’un site d’actualités
Graphique sur la durée de vie des sites web
Problèmes des anciens sites web
Le caractère éphémère d’Internet
Problème de SEO
Problème des liens brisés
Importance de l’oubli et du pardon