- La Wikipédia anglophone a ajouté le site Archive.today à sa liste noire et commencé à supprimer les liens
- Il a été confirmé que le site a servi à orchestrer des attaques DDoS contre des blogs et à manipuler des captures de pages web
- Les contributeurs de Wikipédia se sont accordés pour cesser de l’utiliser, invoquant l’atteinte à la fiabilité du site et le risque d’exploitation des appareils des utilisateurs
- Environ 695000 liens dans 400000 articles sont concernés, et la plupart peuvent être remplacés par d’autres services d’archivage
- Il est recommandé aux contributeurs de les remplacer par Internet Archive, Ghostarchive, Megalodon, etc., ou de les supprimer
Décision de Wikipédia de bloquer Archive.today
- La Wikipédia anglophone a décidé d’ajouter Archive.today à sa liste noire
- Cette décision fait suite au fait que le site a été utilisé dans des attaques DDoS visant des blogs
- Au cours des discussions sur Wikipédia, un cas a été découvert où le site avait manipulé une capture d’une page web pour y insérer le nom d’un blogueur ciblé par l’attaque
- Les contributeurs de Wikipédia estiment que cette manipulation a été faite en représailles à un billet de blog affirmant que l’exploitant du site cachait son identité en utilisant plusieurs pseudonymes
Contenu du consensus de la communauté Wikipédia
- Selon une mise à jour officielle de Wikipédia, il a été décidé de déprécier immédiatement Archive.today et de l’ajouter à la liste noire antispam ou de le bloquer via un filtre de modification
- Il a également été décidé de supprimer tous les liens existants
- La communauté a invoqué la politique (WP:ELNO#3) selon laquelle il ne faut pas diriger les lecteurs vers un site qui détourne les ordinateurs des utilisateurs pour mener des attaques DDoS
- Des preuves de manipulation du contenu de pages archivées ont été présentées, ce qui a conduit à considérer que la fiabilité du site était compromise
Ampleur des liens et possibilités de remplacement
- Les liens Archive.today sont présents à plus de 695000 exemplaires dans environ 400000 articles
- Le site a souvent été utilisé pour contourner les paywalls d’articles de presse
- Certains étaient favorables au statu quo, mais l’analyse a montré que la majorité des liens peuvent être remplacés par d’autres archives
- Certains contributeurs ont commencé à détailler la procédure de suppression et de remplacement des liens
Guide à destination des contributeurs
- Le document récemment publié Wikipedia:Archive.today_guidance explique aux contributeurs comment supprimer et remplacer ces liens
- Les domaines visés incluent archive.today, archive.is, archive.ph, archive.fo, archive.li, archive.md, archive.vn
- Si la source d’origine est toujours en ligne et que son contenu est identique, le lien Archive.today peut être supprimé
- Il peut aussi être remplacé par d’autres services d’archivage comme Internet Archive, Ghostarchive ou Megalodon
- Si l’original existe sous forme imprimée, par exemple, ou si le lien n’était présent que pour des raisons de commodité, le lien d’archive lui-même peut être retiré
Mesures de renforcement de la fiabilité et de la sécurité sur Wikipédia
- Cette décision est considérée comme une mesure visant à renforcer la fiabilité de Wikipédia et la protection des utilisateurs
- La communauté y voit une occasion d’établir des critères clairs de réponse face à la manipulation de sites et aux comportements malveillants
- D’autres discussions sont prévues sur la manière de mener efficacement la suppression des liens à l’avenir
1 commentaires
Avis sur Hacker News
J’ai récemment vu un article sur une possible campagne organisée visant archive.today
Je me demande s’il existe des ressources qui expliquent plus en profondeur comment fonctionne réellement l’architecture technique d’archive.today. J’ai besoin de plus que de simples résultats de recherche IA ou que cet ancien fil HN
Comme archive.org respecte les demandes de suppression, je me demande si archive.today est attaqué justement parce qu’il conserve des contenus qu’il refuse de retirer
Je pense que doxxer quelqu’un n’a aucun intérêt, surtout s’il fournit un service utile aux utilisateurs ordinaires
En revanche, si archive.today transforme ses utilisateurs en botnet pour mener des attaques DDoS ou modifie le contenu des pages archivées, c’est problématique.
Ce genre de comportement donne l’impression que le site est infecté par un malware et nuit à la fiabilité des contenus archivés. Je comprends pourquoi Wikipédia l’a bloqué
Si l’enquête ne s’appuie que sur des informations publiques, il est difficile d’y voir quelque chose de contraire à l’éthique
Le problème, dans le cas d’archive.today, c’est que ces changements ressemblent à des manipulations intentionnelles
J’ai remarqué que certaines captures X/Twitter d’archive.today avaient été enregistrées alors qu’elles étaient connectées au compte “advancedhosters”
Ce compte est lié à une société d’hébergement web basée à Chypre et a récemment relayé un billet publiant des e-mails privés entre l’opérateur d’archive.today (qui utiliserait le pseudonyme « Volth ») et le propriétaire du site
Un précédent message renvoyait vers des articles pro-russes et anti-ukrainiens archivés sur archive.today. Cela ressemble à une piste intéressante
Cela dit, contrairement à Internet Archive qui est une organisation non lucrative légale, cette manière d’opérer se distingue mal d’une activité criminelle
L’an dernier, j’ai vu sur archive.today des pages archivées être modifiées
Avant, les archives de Reddit affichaient le nom d’utilisateur en haut à droite, puis il a disparu à un moment donné. Le problème, c’est que cette modification a été appliquée rétroactivement même aux anciennes captures
Dans l’onglet capture d’écran, le nom est toujours visible, ce qui crée un écart avec l’original. Au début je pensais que c’était anodin, mais à la lumière des événements récents, ça ne semble plus l’être
Si archive.today avait modifié le contenu même du post Reddit, ce serait tout autre chose, mais s’il ne s’agit que des informations de compte, je peux le comprendre
Beaucoup de gens l’ignorent, mais Perma.cc est un outil d’archivage officiel adapté à des usages comme Wikipédia
Il y a aussi plus de détails dans l’article Wikipédia
Je me demande s’il existe un serveur d’archives auto-hébergé utilisable à titre personnel
ArchiveBox semble être le plus connu, donc je vais probablement l’essayer. Cela dit, l’absence de réécriture d’URL risque d’être gênante
J’aimerais bien qu’il existe une fonction pour relier automatiquement les différentes pages d’un article
Avec la fonctionnalité Content Scripts, on peut écrire soi-même des scripts de transformation d’URL
D’après un article d’Ars Technica, archive.today a été bloqué par Wikipédia pour attaque DDoS et manipulation de contenu
Personnellement, je trouve archive.today peu pratique, donc je ne l’utilise presque jamais. Mais sur HN, il semble souvent servir à contourner les paywalls
Le problème, c’est le passif de l’opérateur et son anonymat. Il est en position de collecter beaucoup de données sur les habitudes de lecture des utilisateurs de HN
.todayest bloqué, il suffit de passer à un autre TLD comme archive.ph, archive.is, archive.md, etc.Fait intéressant, ce n’est pas la première fois qu’archive.today est impliqué dans une affaire de DDoS
Selon un post HN d’il y a 3 ans, archive.ph avait déjà servi à lancer une attaque DDoS via du code XmlHttpRequest
La cible était alors northcountrygazette.org, et le site était devenu si lent que l’attaque semblait avoir eu un effet réel
Ce site avait auparavant menacé de poursuivre les contournements de paywall et utilisait un robots.txt bloquant l’archivage. Il semble avoir fini par fermer
Je me demande s’il est possible de créer localement une archive web irréversible sans dépendre d’un site tiers
Je me dis qu’on pourrait peut-être enregistrer l’intégralité des transactions TLS pour permettre une revalidation ultérieure. Bien sûr, si le certificat est compromis, il y a un risque de falsification
Techniquement, Wayback Machine n’est pas forcément meilleure qu’archive.today sur ce point
Il existe plusieurs solutions d’archives auto-hébergées, mais leur niveau de maturité est très variable
On pourrait penser qu’il existe déjà une implémentation de référence prenant en charge à la fois l’usage personnel et public, mais cela ne semble pas être le cas