1 billion de pages web archivées par Internet Archive

(blog.archive.org)

4 points par GN⁺ 2025-10-07 | 1 commentaires | Partager sur WhatsApp

La Wayback Machine, exploitée par Internet Archive, a atteint un jalon historique avec la préservation d’un billion de pages web à travers le monde
Lancé en 1996, ce projet est une collaboration visant à préserver la mémoire collective du web, en archivant divers contenus comme des actualités, des blogs et des pages personnelles
Pour célébrer cet événement, une série de manifestations — concerts, entretiens, forums et portes ouvertes — sera organisée tout au long du mois d’octobre à San Francisco et en ligne
Parmi les participants figurent des pionniers d’Internet comme Tim Berners-Lee, créateur du web, Brewster Kahle, fondateur d’Internet Archive, et Vint Cerf de Google
Cette réussite rappelle la valeur de la préservation de la mémoire collective à l’ère numérique et constitue un moment pour discuter ensemble de l’avenir d’un web libre et ouvert

La portée du cap du billion de pages pour Internet Archive

Depuis 1996, la Wayback Machine collecte et préserve automatiquement des sites web du monde entier afin que chacun puisse explorer le web du passé
Ce passage au billion représente une avancée majeure vers l’objectif d’une « bibliothèque commune de l’histoire de l’humanité en ligne »
Le projet a été maintenu grâce à une coopération mondiale avec des bibliothèques, des instituts de recherche et des bénévoles
L’archive conserve pour les générations futures les traces du web susceptibles de disparaître — gros titres de presse, blogs, forums et pages personnelles — comme une mémoire numérique

Programme des événements de célébration en octobre

7 octobre — The Vast Blue We: Del Sol Quartet at the Internet Archive

Un concert sera organisé au siège de San Francisco avec le Del Sol Quartet, pour célébrer l’ampleur de la coopération humaine à travers la musique
Des œuvres nouvellement composées par Erika Oba et Sam Reider y seront interprétées
- Une mise en musique de la beauté de la collaboration sur le web née des actions de milliards d’individus

9 octobre — Entretien entre Sir Tim Berners-Lee et Brewster Kahle

Discussion entre Sir Tim Berners-Lee, créateur du World Wide Web, et Brewster Kahle, fondateur d’Internet Archive
Divers sujets seront abordés, notamment la croissance d’Internet, les transformations sociales et le rôle d’Internet Archive
L’échange prendra la forme d’une conversation approfondie sur l’évolution continue d’Internet et les enjeux à venir
Événement organisé au Commonwealth Club de San Francisco avec diffusion en direct en ligne

16 octobre — Library Leaders Forum 2025 (en ligne)

Présentation des nouveaux services de bibliothèque d’Internet Archive et de ses partenaires, ainsi que de l’état d’avancement des projets existants
Des responsables de bibliothèques du monde entier y discuteront de l’avenir de la préservation numérique et du soutien à la recherche
Présentation des nouveaux services d’Internet Archive et de cas d’usage liés au soutien à la recherche

21 octobre — Doors Open 2025: visite des archives physiques

Présentation des conditions réelles de conservation des livres, musiques, vidéos et films dans les archives physiques situées à Richmond, en Californie
Démonstration du processus d’archivage matériel pour les livres, la musique, les films et les microfiches
Une occasion de découvrir directement l’ensemble du cycle de vie des documents physiques : don, conservation, numérisation et accessibilité

22 octobre — The Web We’ve Built: 1 Trillion Celebration

Célébration officielle du cap du billion de pages web atteint par la Wayback Machine
Fête mondiale diffusée en streaming en parallèle depuis le siège de San Francisco
Sous le thème « préserver un billion de souvenirs, de moments et de mouvements »,
l’événement célébrera la valeur du web public et la force de la mémoire collective

27 octobre — Wayback to the Future: Celebrating the Open Web

Organisé à la Riggs Library de l’université de Georgetown à Washington, D.C.
Coorganisé par la Foundation for American Innovation, le Massive Data Institute et Internet Archive
L’événement reviendra sur les valeurs d’un web passé ouvert et expérimental, tout en débattant de la durabilité d’un écosystème Internet libre et de l’avenir du web face aux tendances actuelles de centralisation et de fermeture
Avec des interventions de Vint Cerf (Google), Cindy Cohn (EFF) et Jon Stokes (Ars Technica), entre autres

L’avenir de la mémoire numérique

L’archivage d’un billion de pages web a une portée qui dépasse largement le simple chiffre
Ces données ont fait de la Wayback Machine une ressource publique essentielle dans des domaines variés comme les parcours migratoires, l’histoire personnelle, la recherche universitaire et le journalisme d’investigation
Internet Archive entend poursuivre sa vision d’une « bibliothèque publique du web accessible à tous »
Ce cap du billion de pages n’est pas une fin, mais un nouveau point de départ,
et la réflexion se poursuivra aussi sur les modes d’accès et de préservation de l’information à l’ère de l’IA
Brewster Kahle a souligné que « le web que nous avons construit ensemble est une immense archive de l’intelligence collective,
et le préserver est une responsabilité de l’humanité »

1 commentaires

GN⁺ 2025-10-07

Commentaire Hacker News

S’il y a bien une chose que j’aimerais voir, c’est un réseau de miroirs pair à pair pour archive.org. L’application web de l’IA a tendance à vous limiter assez vite dès qu’on essaie de cliquer sur plusieurs dates. Ce serait formidable de disposer d’une source alternative qui distribue lentement le contenu d’archive.org en miroir, un peu comme un torrent, et permette aux utilisateurs d’inspecter et de vérifier sélectivement les données. Pour l’instant, j’utilise ArchiveBox pour gérer ma propre archive, mais cela ne sert qu’à mes besoins personnels. La plupart du temps, j’utilise encore l’IA, simplement parce qu’elle contient énormément de choses.
- Archive Team a déjà mené un projet distinct de l’Internet Archive pour sauvegarder de manière distribuée une partie des archives d’Internet. Plus de détails et l’état d’avancement sont disponibles sur le wiki du projet INTERNETARCHIVE.BAK. Mais ces derniers temps, le projet est en pause indéfinie.
- J’ai clairement constaté à quel point les archives web peuvent être lentes. On dirait aussi que les scrapers IA créent des goulets d’étranglement sur la bande passante. Certains dépôts d’archives numériques nécessitent même un compte chercheur dédié, comme Common Crawl. Le volume de données est si énorme, et l’objectif de conservation si ambitieux, qu’il faut stocker non seulement l’internet mais aussi une dimension supplémentaire, le temps. Il y a tellement de données qu’il devient extrêmement difficile de naviguer ou de chercher, au point que cela en devient presque inutilisable. C’est pour cela que j’ai moi-même créé le projet de liens de métadonnées Internet-Places-Database pour obtenir des informations sur les domaines.
- Quand j’ai travaillé autrefois sur un projet de scraping, j’ai voulu retrouver d’anciens snapshots et j’ai découvert qu’extraire des informations d’Internet Archive était étonnamment difficile. Les choses se sont nettement améliorées quand j’ai commencé à utiliser pywaybackup.
- Je me demande pourquoi l’IA n’exploite pas d’instance IPFS, ou si elle en exploite une mais qu’elle n’est pas très populaire. Il existe déjà pas mal de services miroir IPFS qui fonctionnent assez vite. L’un des problèmes que j’ai rencontrés avec l’IA, c’est que certains très vieux sites web ne se rendent pas correctement à cause de problèmes de JS ou de CSS. Je me demande aussi s’il y aurait un moyen de corriger cela rétroactivement. Si on pouvait exporter tout le code qui était disponible à l’époque, on pourrait peut-être restaurer les sites de manière plus complète. Ce serait vraiment bien si, lorsqu’on clique sur un domaine dans l’IA, un client desktop pouvait télécharger lentement autant de fichiers WAR que souhaité via une file de basse priorité, pour qu’on puisse ensuite les consulter parfaitement même hors ligne.
- J’avais imaginé un système permettant de « donner » de l’espace de stockage inutilisé à archive.org. On lance un client, on dit qu’on peut fournir 1 To, et le serveur vous envoie alors les contenus les plus rares sur votre machine. Le tout serait basé sur le torrent, avec par-dessus un système simple de transfert de contenu. On pourrait aussi l’utiliser pour récupérer les données depuis ce réseau. J’ai envoyé des mails à quelques équipes d’archivage, mais personne ne s’y est intéressé, donc je ne l’ai finalement jamais développé.
Je dirige l’équipe data center/infrastructure à l’Internet Archive. J’aimerais inviter tout le monde aux différents événements organisés cet automne. Si le prix du billet est un problème, contactez-moi absolument par e-mail (voir mon profil). Nous essaierons de vous permettre de participer autant que possible.
- Je me demande si l’équipe IA organise des événements distribués partout dans le monde ou si tout se passe à SF. Et merci sincèrement pour le travail vraiment important que vous faites pour l’humanité.
- J’ai déjà voulu travailler à l’IA, mais les opportunités de recrutement sont vraiment rares.
- J’aimerais beaucoup connaître les coulisses techniques de cette réussite, par exemple les méthodes de crawl web ou les modalités de stockage, bref les détails techniques.
- Je suis curieux de savoir plus précisément de quels événements il s’agit.
L’archivage de 1 trillion de pages web est une réussite impressionnante, mais... il n’existe aucun moyen de faire des recherches dedans. En pratique, si vous connaissez l’URL, vous pouvez la saisir directement et la retrouver, mais sinon l’utilité du service diminue énormément. Ce serait bien de pouvoir rechercher le nom d’un artiste, un nom de fichier, ou même le contenu d’une image.
- Indexer tout cela serait probablement un véritable cauchemar.
- Il me semble que cette fonction était possible chez Kagi à un moment, mais je ne trouve plus où elle est utilisée aujourd’hui.
- Il faut aussi réfléchir aux questions de vie privée. Les règles de robots.txt deviendraient sans effet, et supprimer un site deviendrait en pratique impossible rétroactivement. Certes, il s’agit de contenus publics donc on ne peut pas vraiment l’empêcher, mais rendre l’intégralité de l’IA interrogeable serait une très mauvaise idée.
- J’utilise parfois la recherche web de GPT en lui demandant de me trouver des manuels scolaires sur l’IA. Cela fonctionne bien pour ce type de recherche, mais je ne sais pas à quel point ce serait utile pour des pages web générales.
Si vous souhaitez fournir davantage de contenus à l’IA, le groupe de bénévoles concerné est ArchiveTeam. C’est eux qui envoient les données à l’IA, et vous trouverez plus d’informations sur archiveteam.org.
- Il faudra sans doute que quelqu’un décide humainement de ce qui mérite vraiment d’être archivé. Il faut un filtre pour éviter que quelqu’un n’utilise l’IA comme stockage gratuit pour ses photos de vacances.
Je pense qu’Internet Archive devrait conclure de gros accords avec les entreprises d’IA... par exemple, leur fournir un camion rempli de toutes les données en échange d’un don substantiel qui permettrait à l’IA de fonctionner pendant plusieurs années. Si elles ne paient pas, on pourrait tout de même autoriser l’accès mais ralentir énormément la vitesse de téléchargement, au point qu’il faille des années pour tout récupérer.
- Cela briserait la confiance accumulée jusqu’ici en tant que bien public. La plupart des gens acceptent que l’IA conserve les contenus qu’ils créent, mais si elle commence à gagner de l’argent avec cela, il y aura clairement une énorme réaction négative.
Je me demande si Internet Archive et Common Crawl ont déjà collaboré. J’aimerais comparer la portée et l’infrastructure des deux organisations. Leurs objectifs diffèrent, mais concrètement elles font un travail assez similaire.
- L’IA accepte des données collectées par plusieurs groupes, notamment des WARC collectés par CC ainsi que des contenus issus d’ArchiveTeam.
L’artiste Sam Reider, qui se produit lors de l’événement en présentiel cette semaine, est vraiment excellent. J’ai hâte.
En fin de compte, est-ce que cela signifie qu’on peut obtenir toutes les données simplement en payant Archive, sans avoir à crawler tout le web soi-même ?
Le billet de blog lié recueille des témoignages, à noter :
https://blog.archive.org/2025/09/23/celebrating-1-trillion-webpages-archived-share-your-wayback-story/
C’est vraiment une étape remarquable dans l’histoire de l’internet.

1 billion de pages web archivées par Internet Archive

La portée du cap du billion de pages pour Internet Archive

Programme des événements de célébration en octobre

7 octobre — The Vast Blue We: Del Sol Quartet at the Internet Archive

9 octobre — Entretien entre Sir Tim Berners-Lee et Brewster Kahle

16 octobre — Library Leaders Forum 2025 (en ligne)

21 octobre — Doors Open 2025: visite des archives physiques

22 octobre — The Web We’ve Built: 1 Trillion Celebration

27 octobre — Wayback to the Future: Celebrating the Open Web

L’avenir de la mémoire numérique

À lire aussi

1 commentaires

Commentaire Hacker News