Google a supprimé 749 millions d’URL liées à Anna’s Archive de ses résultats de recherche

(torrentfreak.com)

4 points par GN⁺ 2025-11-06 | 1 commentaires | Partager sur WhatsApp

Anna’s Archive est un métamoteur de recherche de bibliothèques fantômes permettant de trouver des ebooks piratés et d’autres documents, lancé à l’automne 2022
Au cours des trois dernières années, Google a supprimé 749 millions d’URL de ce site de ses résultats de recherche à la suite de signalements pour atteinte au droit d’auteur émanant d’éditeurs et d’auteurs
Cela représente 5 % de l’ensemble des URL liées au droit d’auteur traitées par Google jusqu’à présent, soit un volume bien supérieur à celui de The Pirate Bay
Plus de 1 000 ayants droit, dont Penguin Random House et John Wiley & Sons, ont soumis des demandes DMCA, et environ 10 millions de nouvelles URL sont signalées chaque semaine
Malgré ces suppressions massives, le domaine principal d’Anna’s Archive reste accessible et le site est encore facile à trouver sur Google en recherchant son nom

Présentation d’Anna’s Archive

Anna’s Archive est un métamoteur de recherche qui permet d’effectuer des recherches fédérées dans plusieurs bibliothèques fantômes et de trouver des livres et documents piratés
- Il a été lancé à l’automne 2022, juste après la répression menée par les autorités américaines contre Z-Library
- Le projet est né de la volonté de continuer à fournir au public des livres et articles scientifiques « gratuits »
Depuis son lancement, il a fait l’objet de mesures de blocage dans plusieurs pays et d’une action en justice aux États-Unis pour collecte non autorisée de 2,2 To de données WorldCat
Le site mène également des activités visant à faciliter l’accès aux données pour les chercheurs en IA

Les suppressions massives opérées par Google

Google retire de ses résultats de recherche les URL soupçonnées de porter atteinte au droit d’auteur à la demande des ayants droit
Concernant Anna’s Archive, un total de 784 millions d’URL a été signalé, dont 749 millions ont effectivement été supprimées
- Certains liens n’avaient pas été indexés par Google et ont donc été exclus des suppressions
À titre de comparaison, The Pirate Bay a vu 4,2 millions d’URL supprimées, ce qui montre l’ampleur bien plus importante du cas Anna’s Archive
Le site exploite plusieurs sous-domaines nationaux et possède un très grand nombre de pages, ce qui augmente le volume d’URL visées par les suppressions

5 % de l’ensemble des suppressions pour droit d’auteur chez Google

Selon le rapport de transparence de Google, 15,1 milliards d’URL pour atteinte au droit d’auteur ont été signalées depuis 2012
- Parmi elles, les URL liées à Anna’s Archive représentent 5 % du total
Penguin Random House et John Wiley & Sons figurent parmi les principaux plaignants, et plus de 1 000 éditeurs et auteurs ont soumis des demandes DMCA
Encore aujourd’hui, environ 10 millions de nouvelles URL supplémentaires sont signalées chaque semaine

Visibilité dans les résultats de recherche

En raison de ces suppressions massives, la visibilité du site a diminué sur les recherches liées aux livres
- De nombreuses URL ne sont plus affichées ou ont reculé dans le classement
En revanche, une recherche directe sur le nom “Anna’s Archive” affiche toujours son domaine principal parmi les premiers résultats
Malgré les mesures prises par Google, l’accès au site lui-même n’est pas bloqué

Réponse de l’industrie de l’édition et ses limites

Les éditeurs ayant des difficultés à bloquer directement le site, ils continuent de soumettre des demandes de suppression à des plateformes tierces comme Google
Malgré la pression juridique, les principaux domaines comme annas-archive.org, .li et .se restent toujours en service
Le texte source ne mentionne aucune mesure future supplémentaire ni évolution de politique

1 commentaires

GN⁺ 2025-11-06

Avis Hacker News

Cela peut sembler étrange, mais j’ai constaté que Yandex est un excellent moteur de recherche pour retrouver des contenus déréférencés à cause de demandes DMCA
Par exemple, quand je veux regarder en streaming sur le web un film qui n’est pas sur Netflix, les résultats sont bien meilleurs
C’est comme réutiliser Google en 2005
- J’ai commencé à utiliser Yandex il y a quelques années pour trouver des infohash BitTorrent
  parce que Google, Bing et DuckDuckGo ne donnaient plus de résultats corrects
  ces jours-ci, on ne voit plus que de courtes correspondances partielles sur des sites comme les explorateurs de blockchain, et je ne sais pas si c’est volontaire ou si c’est à cause d’une tentative de fuzzy matching
  dans tous les cas, c’est un échec total pour cet usage
- J’ai essayé plusieurs moteurs de recherche, comme Kagi, Startpage, Ecosia et DDG, et tous donnent des résultats plus pertinents que Google
  Google est beaucoup trop personnalisé
- En tant qu’Ukrainien, je suis en colère de voir Yandex devenir un outil de propagande, mais en tant qu’ingénieur, je respecte leur héritage de plusieurs décennies de recherche et leur excellente technologie de recherche
- Pendant longtemps, j’ai testé la qualité des moteurs de recherche comme ça
  un bon moteur affiche les sites pirates, et un excellent moteur les classe au-dessus des faux résultats
  mais plus un moteur est excellent, plus il finit par attirer l’attention et par voir ces résultats supprimés
  à partir de ce moment-là, il faut aller chercher ailleurs
- Fait amusant, il y a quelques jours, ma femme me parlait de l’histoire de son pays et m’a recommandé un film lié au sujet, mais il n’apparaissait ni sur Google, ni sur DDG, ni sur Bing, ni sur Brave
  alors que sur Yandex, il est apparu directement dans le top 3
  au passage, DDG est désormais presque identique à Google, avec même des résultats sponsorisés
Anna’s Archive a déjà fourni toutes les données nécessaires à l’entraînement de Gemini de Google, donc maintenant on dirait qu’ils font comme si le site n’existait pas
- Je me demande si Anna’s Archive a déjà organisé l’information du monde et l’a rendue universellement accessible
- Google gère volontairement un journal de transparence, et le respect du DMCA n’est qu’une question d’interprétation juridique
  il est difficile de comprendre pourquoi des communautés en ligne en font une théorie du complot malveillante
Google fait encore de la recherche, maintenant ?
De nos jours, la marque de chatbot que j’utilise évite 100 sites de spam SEO et me retrouve la même information, donc je ne vois pas comment battre cette commodité
- J’ai entendu dire que les chatbots sont moins affectés par le spam que Google, mais je me demande si c’est vrai
- Je me souviens d’une époque où Google faisait de la recherche
  (joli pseudo)
- Les chatbots n’ont pas leur propre index à l’échelle d’Internet
  au final, cela revient à renoncer à son jugement pour vérifier directement la source de l’information
- Entre 25 et 90 % des liens fournis par les chatbots sont des hallucinations
  ou alors ils ne font au fond que remplacer une recherche Google
- L’IA basée sur les LLM est par nature vulnérable aux attaques par manipulation des données
  une véritable AGI au niveau humain détecterait ce genre de tentative, mais les chatbots actuels n’en sont pas capables
  article lié : NYTimes - AI Chatbot Prompts and Manipulation
Je ne fais absolument aucune recherche qui pourrait déranger Google
Les numéros de série, numéros de téléphone d’entreprise, articles scientifiques et livres, je les cherche tous sur Yandex ou Brave
peu importe ce que fait Google, je ne l’utilise de toute façon pas
Je me dis qu’il faudrait télécharger tous les torrents z-archive avant qu’Anna’s Archive disparaisse
En excluant les gros PDF et les livres non anglophones, ça devrait tenir compressé sur deux disques de 32 To
https://annas-archive.org/torrents
- Retirer les gros PDF me semble être un critère bien arbitraire
  si un PDF est volumineux, c’est souvent à cause de la couleur ou de la résolution, pas du contenu
- Par le passé, j’ai réduit la taille en diminuant le DPI et la profondeur de couleur, puis en recompilant le tout en PDF
  on peut aussi identifier automatiquement plusieurs éditions d’un même livre pour ne garder qu’un seul epub et supprimer le reste
- Moi aussi, j’aimerais créer une sauvegarde des versions anglaises, allemandes et françaises
  mais les HDD et le système de fichiers posent problème, donc il me faudra peut-être développer moi-même quelque chose comme un découpeur de torrents
- J’organise la liste à l’envers en commençant par remplir avec les petits fichiers
https://annas-archive.org
Je n’ai presque jamais compté sur Google pour trouver le contenu de ce genre de sites
le site lui-même est déjà bien indexé par titre, auteur, format et date, donc la recherche libre suffit largement
- La recherche web à la Google a l’avantage de la recherche par approximation
  par exemple, en cherchant « a a a a ah ah ah ah dance song », elle retrouve “Million Voices” d’Otto Knows
- Mais je me demande si ce genre de sites propose une vraie recherche plein texte (full-text search)
  je doute aussi que Google indexe le contenu intégral des pages d’Anna’s Archive
Après la fermeture récente de Library Genesis, Anna’s Archive semble être le dernier grand dépôt de livres restant
je me demande s’il existe d’autres alternatives
- Il y a Open-Slum.org, lié depuis Anna’s Archive
- Pour les livres, je recommande WeLib.org, et pour les livres audio, AudiobookBay
La marche de Google vers l’insignifiance continue
- Malgré tout, Google représente encore 97 % des requêtes de recherche dans le monde
L’environnement de la recherche web a complètement changé
- Les plateformes fermées (walled gardens) se multiplient, créant de nombreuses zones inaccessibles aux moteurs de recherche
- Il y a aussi beaucoup de données devenues inaccessibles à cause de contraintes juridiques
- Désormais, il faut utiliser non seulement Google, mais aussi Yandex, Kagi et ChatGPT
- J’utilise aussi mon propre index, Internet Places Database

Google a supprimé 749 millions d’URL liées à Anna’s Archive de ses résultats de recherche

Présentation d’Anna’s Archive

Les suppressions massives opérées par Google

5 % de l’ensemble des suppressions pour droit d’auteur chez Google

Visibilité dans les résultats de recherche

Réponse de l’industrie de l’édition et ses limites

À lire aussi

1 commentaires

Avis Hacker News