2 points par GN⁺ 2026-02-22 | 1 commentaires | Partager sur WhatsApp
  • La Wikipédia anglophone a ajouté le site Archive.today à sa liste noire et commencé à supprimer les liens
  • Il a été confirmé que le site a servi à orchestrer des attaques DDoS contre des blogs et à manipuler des captures de pages web
  • Les contributeurs de Wikipédia se sont accordés pour cesser de l’utiliser, invoquant l’atteinte à la fiabilité du site et le risque d’exploitation des appareils des utilisateurs
  • Environ 695000 liens dans 400000 articles sont concernés, et la plupart peuvent être remplacés par d’autres services d’archivage
  • Il est recommandé aux contributeurs de les remplacer par Internet Archive, Ghostarchive, Megalodon, etc., ou de les supprimer

Décision de Wikipédia de bloquer Archive.today

  • La Wikipédia anglophone a décidé d’ajouter Archive.today à sa liste noire
    • Cette décision fait suite au fait que le site a été utilisé dans des attaques DDoS visant des blogs
    • Au cours des discussions sur Wikipédia, un cas a été découvert où le site avait manipulé une capture d’une page web pour y insérer le nom d’un blogueur ciblé par l’attaque
  • Les contributeurs de Wikipédia estiment que cette manipulation a été faite en représailles à un billet de blog affirmant que l’exploitant du site cachait son identité en utilisant plusieurs pseudonymes

Contenu du consensus de la communauté Wikipédia

  • Selon une mise à jour officielle de Wikipédia, il a été décidé de déprécier immédiatement Archive.today et de l’ajouter à la liste noire antispam ou de le bloquer via un filtre de modification
    • Il a également été décidé de supprimer tous les liens existants
  • La communauté a invoqué la politique (WP:ELNO#3) selon laquelle il ne faut pas diriger les lecteurs vers un site qui détourne les ordinateurs des utilisateurs pour mener des attaques DDoS
  • Des preuves de manipulation du contenu de pages archivées ont été présentées, ce qui a conduit à considérer que la fiabilité du site était compromise

Ampleur des liens et possibilités de remplacement

  • Les liens Archive.today sont présents à plus de 695000 exemplaires dans environ 400000 articles
  • Le site a souvent été utilisé pour contourner les paywalls d’articles de presse
  • Certains étaient favorables au statu quo, mais l’analyse a montré que la majorité des liens peuvent être remplacés par d’autres archives
  • Certains contributeurs ont commencé à détailler la procédure de suppression et de remplacement des liens

Guide à destination des contributeurs

  • Le document récemment publié Wikipedia:Archive.today_guidance explique aux contributeurs comment supprimer et remplacer ces liens
    • Les domaines visés incluent archive.today, archive.is, archive.ph, archive.fo, archive.li, archive.md, archive.vn
  • Si la source d’origine est toujours en ligne et que son contenu est identique, le lien Archive.today peut être supprimé
  • Il peut aussi être remplacé par d’autres services d’archivage comme Internet Archive, Ghostarchive ou Megalodon
  • Si l’original existe sous forme imprimée, par exemple, ou si le lien n’était présent que pour des raisons de commodité, le lien d’archive lui-même peut être retiré

Mesures de renforcement de la fiabilité et de la sécurité sur Wikipédia

  • Cette décision est considérée comme une mesure visant à renforcer la fiabilité de Wikipédia et la protection des utilisateurs
  • La communauté y voit une occasion d’établir des critères clairs de réponse face à la manipulation de sites et aux comportements malveillants
  • D’autres discussions sont prévues sur la manière de mener efficacement la suppression des liens à l’avenir

1 commentaires

 
GN⁺ 2026-02-22
Avis sur Hacker News
  • J’ai récemment vu un article sur une possible campagne organisée visant archive.today
    Je me demande s’il existe des ressources qui expliquent plus en profondeur comment fonctionne réellement l’architecture technique d’archive.today. J’ai besoin de plus que de simples résultats de recherche IA ou que cet ancien fil HN

    • S’ils sont vraiment la cible d’une campagne de diffamation organisée, faire du DDoS contre le blog d’autrui ou modifier des pages archivées ne les aide clairement pas
    • archive.today fonctionne plutôt bien pour moi. Il réussit souvent là où archive.org échoue
      Comme archive.org respecte les demandes de suppression, je me demande si archive.today est attaqué justement parce qu’il conserve des contenus qu’il refuse de retirer
    • Il y a aussi eu récemment des articles disant que plusieurs sites commençaient à bloquer Internet Archive. On a l’impression d’entrer dans la prochaine phase de la guerre de l’information
    • Cet article sonne comme s’il avait été écrit par une IA. Il est surtout constitué de résumés et il n’y a aucune info sur l’auteur. Mon détecteur d’IA s’allume
  • Je pense que doxxer quelqu’un n’a aucun intérêt, surtout s’il fournit un service utile aux utilisateurs ordinaires
    En revanche, si archive.today transforme ses utilisateurs en botnet pour mener des attaques DDoS ou modifie le contenu des pages archivées, c’est problématique.
    Ce genre de comportement donne l’impression que le site est infecté par un malware et nuit à la fiabilité des contenus archivés. Je comprends pourquoi Wikipédia l’a bloqué

    • À l’origine, le doxxing désignait le fait de divulguer des informations privées. Aujourd’hui, qualifier de doxxing le simple fait de rassembler des informations publiques me paraît exagéré
      Si l’enquête ne s’appuie que sur des informations publiques, il est difficile d’y voir quelque chose de contraire à l’éthique
    • Il est ironiquement intéressant qu’un site qui met en avant la conservation permanente essaie de faire retirer des articles qui parlent de lui. Une situation du genre « qui sème le vent récolte la tempête »
    • Ce type de problème pourrait peut-être se résoudre avec un système distribué de validation basé sur la blockchain. On pourrait gérer l’historique des modifications sans perdre l’original
    • Les sites d’archives web doivent souvent modifier légèrement le HTML. Des changements pour l’ergonomie, comme la réécriture des chemins de liens, sont naturels
      Le problème, dans le cas d’archive.today, c’est que ces changements ressemblent à des manipulations intentionnelles
    • La question centrale est l’authenticité des pages archivées. C’est sur ce point que le débat devrait se concentrer désormais
  • J’ai remarqué que certaines captures X/Twitter d’archive.today avaient été enregistrées alors qu’elles étaient connectées au compte “advancedhosters”
    Ce compte est lié à une société d’hébergement web basée à Chypre et a récemment relayé un billet publiant des e-mails privés entre l’opérateur d’archive.today (qui utiliserait le pseudonyme « Volth ») et le propriétaire du site
    Un précédent message renvoyait vers des articles pro-russes et anti-ukrainiens archivés sur archive.today. Cela ressemble à une piste intéressante

    • Ce compte pourrait aussi être un compte donné. Les sites de la famille archive.today utilisent parfois des abonnements payants pour contourner les paywalls
      Cela dit, contrairement à Internet Archive qui est une organisation non lucrative légale, cette manière d’opérer se distingue mal d’une activité criminelle
    • On parle d’une « piste intéressante », mais il n’est pas clair où cela mènera réellement
  • L’an dernier, j’ai vu sur archive.today des pages archivées être modifiées
    Avant, les archives de Reddit affichaient le nom d’utilisateur en haut à droite, puis il a disparu à un moment donné. Le problème, c’est que cette modification a été appliquée rétroactivement même aux anciennes captures
    Dans l’onglet capture d’écran, le nom est toujours visible, ce qui crée un écart avec l’original. Au début je pensais que c’était anodin, mais à la lumière des événements récents, ça ne semble plus l’être

    • Cela dit, ce n’était peut-être pas malveillant mais simplement destiné à éviter d’exposer un compte connecté.
      Si archive.today avait modifié le contenu même du post Reddit, ce serait tout autre chose, mais s’il ne s’agit que des informations de compte, je peux le comprendre
  • Beaucoup de gens l’ignorent, mais Perma.cc est un outil d’archivage officiel adapté à des usages comme Wikipédia
    Il y a aussi plus de détails dans l’article Wikipédia

    • En revanche, au-delà de 10 liens, il faut un abonnement payant ou un compte institutionnel. Ce n’est pas adapté à une encyclopédie que tout le monde peut éditer
    • Je pense qu’il vaudrait mieux que Wikipédia construise cela elle-même. Elle exploite déjà son propre CDN, donc cela semble faisable. En revanche, le contournement de paywall serait risqué
    • J’ai moi aussi migré vers Perma.cc cette semaine, mais il y a des erreurs sur les pages riches en images et Reddit y est carrément bloqué. Cela dit, comme c’est open source, il y a de la marge pour l’améliorer
  • Je me demande s’il existe un serveur d’archives auto-hébergé utilisable à titre personnel
    ArchiveBox semble être le plus connu, donc je vais probablement l’essayer. Cela dit, l’absence de réécriture d’URL risque d’être gênante
    J’aimerais bien qu’il existe une fonction pour relier automatiquement les différentes pages d’un article

    • Je préfère Readeck. C’est open source et il existe aussi des apps iOS et Android
      Avec la fonctionnalité Content Scripts, on peut écrire soi-même des scripts de transformation d’URL
    • Une autre alternative est Omnom. Son dépôt GitHub est également public
  • D’après un article d’Ars Technica, archive.today a été bloqué par Wikipédia pour attaque DDoS et manipulation de contenu
    Personnellement, je trouve archive.today peu pratique, donc je ne l’utilise presque jamais. Mais sur HN, il semble souvent servir à contourner les paywalls
    Le problème, c’est le passif de l’opérateur et son anonymat. Il est en position de collecter beaucoup de données sur les habitudes de lecture des utilisateurs de HN

    • J’utilise souvent archive.today. Par exemple, pour lire des articles derrière un paywall comme ceux de The Economist, je n’ai pas vraiment d’alternative
    • Si le domaine .today est bloqué, il suffit de passer à un autre TLD comme archive.ph, archive.is, archive.md, etc.
    • Discuter d’un article sans l’avoir lu n’a pas grand intérêt, donc le contournement de paywall est nécessaire aussi pour la qualité des discussions sur HN
    • “archive.today” est en réalité un terme générique pour plusieurs domaines archive.tld. Quand on dit que le site est « promu » sur HN, cela veut simplement dire que les liens y sont souvent partagés
    • Beaucoup d’utilisateurs s’en servent simplement pour que tout le monde puisse lire
  • Fait intéressant, ce n’est pas la première fois qu’archive.today est impliqué dans une affaire de DDoS
    Selon un post HN d’il y a 3 ans, archive.ph avait déjà servi à lancer une attaque DDoS via du code XmlHttpRequest
    La cible était alors northcountrygazette.org, et le site était devenu si lent que l’attaque semblait avoir eu un effet réel
    Ce site avait auparavant menacé de poursuivre les contournements de paywall et utilisait un robots.txt bloquant l’archivage. Il semble avoir fini par fermer

  • Je me demande s’il est possible de créer localement une archive web irréversible sans dépendre d’un site tiers
    Je me dis qu’on pourrait peut-être enregistrer l’intégralité des transactions TLS pour permettre une revalidation ultérieure. Bien sûr, si le certificat est compromis, il y a un risque de falsification

    • À minima, si un site d’archives publiait les hachages du contenu, on pourrait vérifier plus tard s’il y a eu altération
      Techniquement, Wayback Machine n’est pas forcément meilleure qu’archive.today sur ce point
    • En revanche, rejouer une session TLS pour la vérifier n’est pas possible. Un système public de journaux de transparence pourrait être une alternative, mais la nature dynamique du web rendrait difficile une solution parfaite
  • Il existe plusieurs solutions d’archives auto-hébergées, mais leur niveau de maturité est très variable
    On pourrait penser qu’il existe déjà une implémentation de référence prenant en charge à la fois l’usage personnel et public, mais cela ne semble pas être le cas

    • Je pense pareil. J’aimerais bien une alternative simple que je puisse utiliser à titre personnel