Anna's Archive : dernières nouvelles de l'équipe

(annas-archive.org)

1 points par GN⁺ 2025-08-19 | 1 commentaires | Partager sur WhatsApp

Face à la hausse des attaques contre la mission récente, un renforcement de la sécurité de l'infrastructure et des opérations est en cours
Depuis son lancement en 2022, le projet préserve et partage en toute sécurité des dizaines de millions de livres, articles scientifiques, magazines, journaux et autres documents
Grâce à un scraping à grande échelle, une vaste quantité de métadonnées a été collectée depuis WorldCat, Google Books et d'autres sources afin d'identifier les documents encore non collectés
Des partenariats avec LibGen, Z-Library et d'autres ont permis d'obtenir des dizaines de millions de documents supplémentaires, même si la disparition de certains partenaires est regrettée
Une relation prudente est maintenue avec de nouveaux sites comme WeLib, et leur usage est déconseillé en raison d'une contribution insuffisante à la communauté

Situation récente et réponse de l'équipe

Les attaques visant la mission d'Anna's Archive se sont multipliées récemment
En réponse, des mesures de renforcement de la sécurité de l'infrastructure et des opérations sont en cours
Préserver en toute sécurité le patrimoine de la connaissance de l'humanité reste une activité qui mérite d'être poursuivie

Libération des documents et activité d'archivage

Depuis son lancement en 2022, le projet a réuni des dizaines de millions de livres, d'articles scientifiques, de magazines, de journaux et d'autres contenus
Ces documents sont protégés contre diverses menaces telles que les catastrophes naturelles, la guerre ou les coupes budgétaires
Grâce aux efforts de toutes celles et ceux qui ont contribué à diffuser ces documents via torrent, le risque de perte a fortement diminué

Scraping à grande échelle et collecte de métadonnées

Anna's Archive organise de manière systématique un scraping à grande échelle depuis IA Controlled Digital Lending, HathiTrust, DuXiu et d'autres sources
Le projet a réussi à obtenir des fichiers correspondant à des dizaines de millions de documents
Une vaste collection de métadonnées de livres a été constituée à partir de WorldCat, Google Books et d'autres sources
Ces métadonnées servent à identifier les livres qui ne figurent pas encore dans la collection et à alimenter une stratégie de collecte prioritaire pour les documents rares

Communauté, coopération et nouveaux développements

En collaborant avec des partenaires comme les forks de LibGen, STC/Nexus, Z-Library et d'autres, le projet a obtenu des dizaines de millions de fichiers supplémentaires
Ces partenaires apportent une aide importante à la mission, notamment en miroirant les fichiers
Toutefois, la disparition de l'un des forks de LibGen est perçue comme regrettable

Nouveaux projets et points de vigilance

Un nouveau projet appelé WeLib est apparu récemment
- Il miroir la majeure partie des collections d'archives et utilise un fork de la codebase d'Anna’s Archive
- Certaines améliorations de l'interface utilisateur de WeLib ont été reprises et intégrées
- Cependant, aucun partage de nouvelles collections ni d'améliorations de la codebase n'a eu lieu, ce qui témoigne d'un engagement insuffisant envers l'écosystème
- En conséquence, la prudence est recommandée concernant l'utilisation de WeLib
En outre, des centaines de téraoctets de nouvelles collections sont déjà préparés sur les serveurs et en attente de traitement

Appel au bénévolat et aux dons

Toute personne peut participer au projet via la page de bénévolat et de dons
Le projet fonctionne entièrement avec un budget réduit, donc la moindre aide a une grande valeur
L'équipe encourage à poursuivre les efforts continus pour protéger et libérer le patrimoine de la connaissance
Anna et toute l'équipe (voir la communauté Reddit)

1 commentaires

GN⁺ 2025-08-19

Commentaires Hacker News

J’achète les livres que je lis après les avoir repérés sur Anna's Archive, les comics sur readComicsOnline, et les romans graphiques européens via #WONTTELL ; je suis un habitué de ces trois « boutiques hors ligne », et au lieu d’acheter ce qui est à la mode à cause de la pub, je fais énormément de recherches pour ne trouver que les œuvres vraiment bonnes ; il arrive même que le personnel galère à commander des livres rares que j’ai découverts en ligne ; je me demande si je suis une exception, mais ce genre de services protège ma liberté de choix
- C’est une question complexe. J’ai autrefois fait partie d’un groupe de release de films, et ses membres possédaient pour la plupart bien plus de VHS/DVD que la moyenne. C’est le genre de chose qui demande beaucoup d’efforts et de temps. Ceux qui se contentaient de télécharger étaient plus hétérogènes : certains vivaient à l’étranger et n’avaient pas accès aux sorties de leur pays, d’autres se vantaient fièrement de ne jamais acheter de médias
- Même situation pour moi. Grâce à Anna's Archive, je peux trouver des ressources plus facilement qu’à la bibliothèque de mon école : je cherche depuis chez moi, j’obtiens l’info dont j’ai besoin, puis je peux supprimer le fichier. Je peux vérifier le contenu à l’avance, et si c’est vraiment bien, je l’achète pour ma collection. Je n’achète pas plus de livres qu’avant, mais mon niveau de satisfaction est bien plus élevé. En revanche, les sites d’upload m’ont fait découvrir d’excellents films dont je n’avais jamais entendu parler, et du coup j’achète bien plus de films qu’avant
- C’est similaire pour les scans pirates de BD françaises : ils diffusent les sorties avec environ 6 mois de décalage. Le milieu est assez petit pour que cette règle tienne bien. Ça m’a donné envie de m’intéresser à la BD, et quand une œuvre me plaît, je l’achète volontiers dès sa sortie et j’enlève le DRM pour mon usage personnel. La plupart de mes téléchargements relèvent davantage de la collection et de l’archivage, et quand je lis vraiment une œuvre jusqu’au bout avec plaisir, je soutiens l’auteur
- Je suis exactement pareil. Si une série a l’air intéressante, je télécharge d’abord seulement le premier tome et j’en lis environ un tiers ; si c’est vraiment bien, je l’achète ensuite pour le lire. J’achète à peu près 3 à 4 livres par mois (de préférence en epub sans DRM si possible), et environ 10 romans graphiques européens par mois (uniquement en papier). Moi aussi, je suis un gros consommateur
- J’ai autrefois suivi un jeu indé dont le développeur voulait proposer une expérience sans DRM. Il y avait aussi des fonctionnalités en ligne, comme des classements, et il a été stupéfait de constater qu’il y avait bien plus de comptes connectés que de ventes réelles. L’ambiance a changé : dans la description des fonctionnalités, les développeurs en sont venus à supplier les gens de ne pas utiliser de copies pirates et d’acheter le jeu. Au final, le titre était populaire, mais il y avait tellement de copies pirates et trop peu de gens payaient que l’équipe a abandonné le projet. Dès qu’on parle de piratage, beaucoup de gens essaient de justifier leur comportement en disant qu’ils consomment plus que la moyenne, mais quand on regarde les données statistiques réelles, la majorité dit simplement qu’elle utilise ces contenus parce qu’ils sont gratuits
Les opérateurs de shadow libraries rendent un immense service à l’humanité, ils mériteraient un prix Nobel ; Satoshi en serait sûrement fier
- Ce dont Satoshi serait fier, c’est qu’il soit possible de soutenir des shadow libraries sans craindre la censure, et qu’un seul élément suffise à faire une liste
- Aaron Swartz en serait probablement fier lui aussi
- Si c’était lui, il pourrait au moins mettre quelques pièces ; pour lui, ce ne serait que de la monnaie
Ils fournissent une liste de torrents auxquels tout le monde peut contribuer en seeding pour participer à la préservation à long terme https://annas-archive.org/torrents
- Je trouve surprenant que les torrents basés sur i2p ne se soient toujours pas vraiment répandus et que ce genre de site ne les propose pas comme option. Je pense que beaucoup de gens ne contribuent pas à cause de la charge juridique ; i2p pourrait aider
- C’est impressionnant de voir que sci-hub fait environ 90 To, et libgen-non-fiction environ 77,5 To. Ces deux archives contiennent justement les connaissances scientifiques essentielles — articles, manuels, etc. — et doivent absolument être protégées. J’en stocke moi-même environ 16 To sur un serveur domestique, mais passer à l’échelle des 200 To n’a rien de trivial en matériel et en coût (12 disques de 16 To à eux seuls, c’est 2 200 dollars). Si on ajoute la redondance des données et le matériel serveur, on peut mettre en cache l’essentiel des connaissances scientifiques accumulées par l’humanité pour environ 5 000 dollars. Ce qui est intéressant, c’est que la taille de ces dépôts a à peine augmenté récemment ; sci-hub aussi semble ne plus être mis à jour depuis 2022, et les revues académiques de faible qualité qui se sont multipliées récemment sont probablement moins importantes
En lisant une série de livres à la bibliothèque, j’ai été sidéré de constater qu’il manquait le tome 3 ou 4, probablement perdu ou abîmé. J’ai même envisagé d’acheter moi-même un exemplaire d’occasion pour le donner, mais les nouvelles éditions coûtaient plus cher et avaient une autre ambiance, alors j’ai fini par laisser tomber. Du coup, je l’ai trouvé sur Anna’s Archive. La bibliothèque n’avait pas non plus les derniers tomes de la série (quelqu’un les avait peut-être empruntés sans les rendre, ou alors ils n’y ont jamais été). Je voulais simplement lire toute l’œuvre de cet auteur, et j’ai d’ailleurs acheté deux fois, en papier et en audio, les livres que j’aime vraiment. Il fut un temps où mes amis se sont pris de passion pour la collection de livres, mais de mon côté je préfère ne garder que ceux que je relirai. Même quand j’ai ce besoin de tout compléter, je le satisfais via la bibliothèque ou les ebooks. Plus je vieillis, plus je prends conscience à la fois des livres et de ma propre finitude. Même en prenant ma retraite et en lisant 3 à 4 livres par semaine, j’ai déjà accumulé bien plus que ce que je pourrai lire dans une vie. Et de nouvelles parutions, de nouvelles voix, continuent d’apparaître. Dernièrement, j’ai relu Dune avant de le revendre à une librairie d’occasion, et si je le relisais encore, ce serait probablement en audiobook
Je pense que le passage disant que « Anna’s Archive a obtenu des dizaines de millions de fichiers auprès de l’IA Controlled Digital Lending » n’aide pas vraiment si on considère l’ensemble de la situation
- C’est une remarque extrêmement ambiguë qui finira forcément devant un tribunal
- Le fait qu’Anna's Archive se vante avec désinvolture d’avoir « fait ça aussi » me paraît très égoïste, sans la moindre considération pour les conséquences
- Je ne vois pas pourquoi ce serait un problème ; à la base, leur but est justement de rassembler des livres
Je pense que des sites comme Anna's Archive font partie des dernières bonnes choses qui restent sur Internet
- Je me demande comment ils financent tout ça et comment ils parviennent à faire survivre le site ; on imagine que des entreprises ou des États disposant de moyens énormes aimeraient le faire disparaître
- Je suis d’accord pour dire que c’est l’une des dernières bonnes choses qui restent (la dernière, mais pas la moindre)
Bravo à l’équipe de ce projet. J’ai l’impression que l’UI s’est améliorée au cours de l’année écoulée, ce qui m’a impressionné. Le problème qui reste, c’est de faire survivre le service et de le garder accessible. Je me demande combien d’efforts cela demande, et comment ils tiennent dans un contexte où ils sont autant attaqués
- Il y a eu une grosse mise à jour de l’UI ces 2 à 5 derniers jours. Mon seul regret, c’est que sur mobile, avant on pouvait consulter les résultats de recherche bien plus efficacement, alors que le nouveau design n’en affiche qu’environ 4 ou 5 par écran
À titre d’info, ce site est aussi assez utile https://open-slum.org/
- Le site ne répond pas chez moi ; j’aimerais bien qu’on m’explique ce qu’on y trouve et pourquoi c’est utile
- Ce site semble être une instance d’Uptime Kuma ; Uptime Kuma est un projet open source particulièrement bon pour le monitoring et les tableaux de bord https://github.com/louislam/uptime-kuma
Je trouve assez amusant que les citoyens soutiennent des sites comme Anna's Archive alors que les gouvernements y sont opposés ; on dirait une preuve supplémentaire d’élitisme
- Il n’y a rien de drôle ni d’étrange là-dedans ; il manque le point de vue de la partie concernée, à savoir les auteurs. Je me demande dans quelle mesure les écrivains dont les livres se retrouvent sur Anna’s Archive en sont satisfaits. Personnellement, je pense qu’il est bénéfique que la société dans son ensemble lise davantage, donc j’ai plutôt une opinion positive d’Anna’s Archive, de sci-hub, etc. Mais dans le système actuel, il reste beaucoup de questions sur la rémunération, le droit, et ainsi de suite
- Je me demande ce qu’en pensent les auteurs
Je me demande si Anna's Archive ou des sites similaires proposent un ensemble complet de PDF du New York Times dans son intégralité (avant 1930), ou d’autres journaux. Aujourd’hui, même les documents du domaine public sont enfermés sur des sites fermés comme Newspapers.com, ou alors totalement impossibles à explorer, comme les anciens services Google News/Newspapers. J’espère que la course à l’acquisition de données pour l’entraînement de l’IA fera émerger de nouvelles archives plus ouvertes que les anciens sites payants ou abandonnés, avec des fonctions d’exploration basées sur l’IA. On peut en trouver une partie sur Internet Archive et ailleurs, mais ce qu’il faut vraiment, c’est une fonction de recherche alimentée par l’IA
- On peut trouver une partie des anciens numéros du NYT via ce lien https://archive.org/search?query=title%3ANew+York+Times&sort=-date&and%5B%5D=year%3A%5B1530+TO+1930%5D, même si on ne peut pas télécharger d’un coup l’ensemble complet en PDF. En revanche, on peut retrouver les PDF un par un via les torrents d’Anna’s Archive puis les regrouper. Pour la recherche basée sur l’IA, avec assez de temps et de volonté, on pourrait appliquer un OCR aux anciens articles du NYT pour les convertir en texte, puis injecter ça dans un LLM ou autre afin de permettre une exploration sémantique. Idéalement, je pense qu’un tel projet devrait être financé comme recherche académique par des fonds publics dédiés à la culture

Anna's Archive : dernières nouvelles de l'équipe

Situation récente et réponse de l'équipe

Libération des documents et activité d'archivage

Scraping à grande échelle et collecte de métadonnées

Communauté, coopération et nouveaux développements

Nouveaux projets et points de vigilance

Appel au bénévolat et aux dons

À lire aussi

1 commentaires

Commentaires Hacker News