3 points par GN⁺ 2025-08-18 | 1 commentaires | Partager sur WhatsApp
  • ArchiveTeam a archivé avec succès tous les liens raccourcis goo.gl
  • N’importe qui peut participer au projet d’archivage via le programme d’archivage virtuel ArchiveTeam Warrior
  • Ce Warrior peut être exécuté sous Windows, OS X et Linux sans risque particulier
  • Les utilisateurs peuvent sélectionner un projet et participer à l’activité grâce à une configuration simple
  • Il offre une méthode simple et intuitive pour contribuer aux activités d’archivage, même sans compétences techniques particulières

Présentation d’ArchiveTeam Warrior

  • ArchiveTeam Warrior est une appliance virtuelle d’archivage que tout le monde peut utiliser facilement
  • En lançant Warrior, les utilisateurs peuvent participer au téléchargement de sites web, etc. puis à leur envoi vers les archives d’ArchiveTeam
  • Warrior ne présente pas de danger pour l’environnement informatique réel et n’utilise que la bande passante Internet et un peu d’espace disque
  • Il prend en charge Windows, OS X et Linux, et nécessite un logiciel de machine virtuelle comme VirtualBox ou VMware

Utilisation avec VirtualBox

  • Télécharger l’appliance Warrior (357 Mo)
  • Dans VirtualBox, cliquer sur le menu File > Import Appliance pour charger le fichier téléchargé
  • Au démarrage de la machine virtuelle, les dernières mises à jour sont récupérées automatiquement, puis une demande d’utilisation du navigateur web apparaît

Processus après le lancement de Warrior

  • Accéder à la page Settings et la consulter
  • Choisir un nom d’utilisateur afin d’afficher sa progression dans le leaderboard
  • Dans l’onglet All projects, sélectionner le projet souhaité pour participer, ou choisir ArchiveTeam’s Choice afin de rejoindre le projet le plus urgent

Les avantages de la participation

  • Sans compétences particulières ni procédure complexe, tout le monde peut contribuer facilement aux projets d’archivage
  • Les résultats des activités d’archivage de l’utilisateur sont affichés dans le leaderboard, ce qui favorise la motivation et la collaboration

1 commentaires

 
GN⁺ 2025-08-18
Commentaires sur Hacker News
  • À chaque fois qu’ArchiveTeam mène ce genre de projet, je suis vraiment impressionné. Il y a quelques années, quand la plateforme vidéo où je travaillais allait annoncer sa fermeture, j’ai été mis en relation avec quelqu’un d’ArchiveTeam et j’ai appris qu’il s’intéressait à la préservation des données. Je lui ai donné quelques conseils (des informations sur des endpoints serveur susceptibles de poser des difficultés pour l’archivage) et je lui ai prêté temporairement quelques-unes de mes instances EC2. Comme les serveurs m’appartenaient, je pouvais voir ce qui se passait : en deux minutes, les instances étaient entièrement prêtes, ont commencé à archiver rapidement les vidéos, et chacune téléchargeait efficacement des vidéos différentes sans doublons. ArchiveTeam a toujours une excellente mission, mais l’efficacité de son exécution est vraiment impressionnante.

  • Le titre n’est pas exact. En réalité, c’est Archiveteam.org, pas Archive.org. The Internet Archive fournit l’espace de stockage, mais le véritable travail d’archivage est effectué par les membres d’Archiveteam.

    • Je me demande quelle est exactement la contribution d’Archiveteam. Je ne comprends pas bien. Au fond, cela ressemble à un intermédiaire pas vraiment nécessaire entre ce qu’il faut archiver et le serveur d’archives. Je me demande si quelque chose m’échappe.
  • Je voulais partager des éléments liés : « Rejoindre la guerre contre la pourriture des liens (Link Rot) » (lien), ainsi que plusieurs fils de discussion HN sur les changements de politique de Google concernant goo.gl (sélection d’articles liés de 2018 à 2025, ici, ici, ici, ici, ici, ici). Il y a des discussions variées, j’espère que cela sera utile.

  • Je partage la dernière mise à jour de Google : lien vers la mise à jour du blog Google

    • Ah, comme j’estime que cela vient d’une entreprise profondément peu fiable nommée Google, je n’accorde absolument aucune confiance à cette « mise à jour » non plus.
    • D’après l’annonce de Google, les liens raccourcis (liens goo.gl) « ne fonctionneront plus après le 25 août et il est recommandé de migrer vers un autre service de raccourcissement d’URL » ; dans ce cas, conserver seulement une partie des liens n’a-t-il pas peu de sens ? Cela veut bien dire que les liens raccourcis déjà intégrés dans des documents impossibles à modifier finiront tous par être cassés, non ?
    • Je me demande au final à quoi cela rime. Rediriger d’anciens liens quasiment inutilisés (ou peu actifs) ne coûterait sans doute pas grand-chose, alors je ne comprends pas pourquoi il faut absolument arrêter le service (y compris cette politique consistant à ne continuer la redirection que pour les liens à fort trafic).
    • J’ai du mal à comprendre. Est-ce vraiment si coûteux de conserver l’ensemble de la base de données, alors qu’il faut de toute façon en garder une partie ?
  • Est-ce que quelqu’un archive l’intégralité de reddit ou de twitter ? Je suis curieux, même si leurs Terms ont changé de façon à ne plus le permettre.

    • Pour reddit, il y avait autrefois un projet appelé Pushshift. Avant le changement de l’API reddit, ces données pouvaient être téléchargées via the-eye, un autre groupe d’archivage et de préservation de données. Pour twitter, à ma connaissance non. Et cela fait déjà des années qu’il n’est plus possible d’archiver des tweets avec la Wayback Machine.
    • Sur Academictorrents, on peut toujours obtenir des dumps mensuels de toutes les submissions et de tous les comments de reddit, même après les limitations de l’API.
    • On peut aussi demander à OpenAI.
  • Je ne comprends pas bien la page. Il y a une liste de jeux de données (j’imagine ?) et la taille semble monter jusqu’à 91 TiB. Je n’ai pas l’impression qu’il faille 91 TiB juste pour une liste de liens raccourcis Google et de leurs URL cibles. Quelqu’un connaît-il le principe ?

    • J’ai fait un calcul rapide. Une URL choisie au hasard dans Google Search faisait 705 octets, un lien court goo.gl 22 octets, et en ne stockant que l’ID brut 6 octets. Il y a évidemment des cas plus courts ou plus longs, mais à la louche cela correspond à un volume représentant de plusieurs dizaines de milliards à plusieurs milliers de milliards d’URL.
  • Je suis heureux d’avoir pu contribuer, même un peu, à cet archivage.

    • Moi aussi, ça m’a fait plaisir de voir mon nom sur le leaderboard. En réalité, tout ce que j’ai fait, c’est installer un docker container pendant une journée puis l’oublier.
  • Je me demande combien de liens pointent vers des vidéos YouTube privées, des documents Google, etc.

    • J’allais plaisanter en mode « maintenant on peut les télécharger et chercher nous-mêmes », mais en réalité, ici, on voit « Access-restricted-item: true », donc l’accès est restreint. En plus, c’est fourni par blocs de 10GB.
  • Je me demande si « all » désigne vraiment toutes les URL publiquement accessibles, ou si cela signifie qu’ils ont essayé de manière itérative tout l’espace de noms des URL.

    • En pratique, cela a été fait par des bénévoles qui exécutaient eux-mêmes le client et essayaient de manière itérative tout l’espace de noms des URL sans se faire bloquer par IP.
    • Les URL goo.gl publiques étaient déjà toutes incluses dans les crawls d’Internet Archive et de Common Crawl.