4 points par GN⁺ 2025-11-06 | 1 commentaires | Partager sur WhatsApp
  • Anna’s Archive est un métamoteur de recherche de bibliothèques fantômes permettant de trouver des ebooks piratés et d’autres documents, lancé à l’automne 2022
  • Au cours des trois dernières années, Google a supprimé 749 millions d’URL de ce site de ses résultats de recherche à la suite de signalements pour atteinte au droit d’auteur émanant d’éditeurs et d’auteurs
  • Cela représente 5 % de l’ensemble des URL liées au droit d’auteur traitées par Google jusqu’à présent, soit un volume bien supérieur à celui de The Pirate Bay
  • Plus de 1 000 ayants droit, dont Penguin Random House et John Wiley & Sons, ont soumis des demandes DMCA, et environ 10 millions de nouvelles URL sont signalées chaque semaine
  • Malgré ces suppressions massives, le domaine principal d’Anna’s Archive reste accessible et le site est encore facile à trouver sur Google en recherchant son nom

Présentation d’Anna’s Archive

  • Anna’s Archive est un métamoteur de recherche qui permet d’effectuer des recherches fédérées dans plusieurs bibliothèques fantômes et de trouver des livres et documents piratés
    • Il a été lancé à l’automne 2022, juste après la répression menée par les autorités américaines contre Z-Library
    • Le projet est né de la volonté de continuer à fournir au public des livres et articles scientifiques « gratuits »
  • Depuis son lancement, il a fait l’objet de mesures de blocage dans plusieurs pays et d’une action en justice aux États-Unis pour collecte non autorisée de 2,2 To de données WorldCat
  • Le site mène également des activités visant à faciliter l’accès aux données pour les chercheurs en IA

Les suppressions massives opérées par Google

  • Google retire de ses résultats de recherche les URL soupçonnées de porter atteinte au droit d’auteur à la demande des ayants droit
  • Concernant Anna’s Archive, un total de 784 millions d’URL a été signalé, dont 749 millions ont effectivement été supprimées
    • Certains liens n’avaient pas été indexés par Google et ont donc été exclus des suppressions
  • À titre de comparaison, The Pirate Bay a vu 4,2 millions d’URL supprimées, ce qui montre l’ampleur bien plus importante du cas Anna’s Archive
  • Le site exploite plusieurs sous-domaines nationaux et possède un très grand nombre de pages, ce qui augmente le volume d’URL visées par les suppressions

5 % de l’ensemble des suppressions pour droit d’auteur chez Google

  • Selon le rapport de transparence de Google, 15,1 milliards d’URL pour atteinte au droit d’auteur ont été signalées depuis 2012
    • Parmi elles, les URL liées à Anna’s Archive représentent 5 % du total
  • Penguin Random House et John Wiley & Sons figurent parmi les principaux plaignants, et plus de 1 000 éditeurs et auteurs ont soumis des demandes DMCA
  • Encore aujourd’hui, environ 10 millions de nouvelles URL supplémentaires sont signalées chaque semaine

Visibilité dans les résultats de recherche

  • En raison de ces suppressions massives, la visibilité du site a diminué sur les recherches liées aux livres
    • De nombreuses URL ne sont plus affichées ou ont reculé dans le classement
  • En revanche, une recherche directe sur le nom “Anna’s Archive” affiche toujours son domaine principal parmi les premiers résultats
  • Malgré les mesures prises par Google, l’accès au site lui-même n’est pas bloqué

Réponse de l’industrie de l’édition et ses limites

  • Les éditeurs ayant des difficultés à bloquer directement le site, ils continuent de soumettre des demandes de suppression à des plateformes tierces comme Google
  • Malgré la pression juridique, les principaux domaines comme annas-archive.org, .li et .se restent toujours en service
  • Le texte source ne mentionne aucune mesure future supplémentaire ni évolution de politique

1 commentaires

 
GN⁺ 2025-11-06
Avis Hacker News
  • Cela peut sembler étrange, mais j’ai constaté que Yandex est un excellent moteur de recherche pour retrouver des contenus déréférencés à cause de demandes DMCA
    Par exemple, quand je veux regarder en streaming sur le web un film qui n’est pas sur Netflix, les résultats sont bien meilleurs
    C’est comme réutiliser Google en 2005

    • J’ai commencé à utiliser Yandex il y a quelques années pour trouver des infohash BitTorrent
      parce que Google, Bing et DuckDuckGo ne donnaient plus de résultats corrects
      ces jours-ci, on ne voit plus que de courtes correspondances partielles sur des sites comme les explorateurs de blockchain, et je ne sais pas si c’est volontaire ou si c’est à cause d’une tentative de fuzzy matching
      dans tous les cas, c’est un échec total pour cet usage
    • J’ai essayé plusieurs moteurs de recherche, comme Kagi, Startpage, Ecosia et DDG, et tous donnent des résultats plus pertinents que Google
      Google est beaucoup trop personnalisé
    • En tant qu’Ukrainien, je suis en colère de voir Yandex devenir un outil de propagande, mais en tant qu’ingénieur, je respecte leur héritage de plusieurs décennies de recherche et leur excellente technologie de recherche
    • Pendant longtemps, j’ai testé la qualité des moteurs de recherche comme ça
      un bon moteur affiche les sites pirates, et un excellent moteur les classe au-dessus des faux résultats
      mais plus un moteur est excellent, plus il finit par attirer l’attention et par voir ces résultats supprimés
      à partir de ce moment-là, il faut aller chercher ailleurs
    • Fait amusant, il y a quelques jours, ma femme me parlait de l’histoire de son pays et m’a recommandé un film lié au sujet, mais il n’apparaissait ni sur Google, ni sur DDG, ni sur Bing, ni sur Brave
      alors que sur Yandex, il est apparu directement dans le top 3
      au passage, DDG est désormais presque identique à Google, avec même des résultats sponsorisés
  • Anna’s Archive a déjà fourni toutes les données nécessaires à l’entraînement de Gemini de Google, donc maintenant on dirait qu’ils font comme si le site n’existait pas

    • Je me demande si Anna’s Archive a déjà organisé l’information du monde et l’a rendue universellement accessible
    • Google gère volontairement un journal de transparence, et le respect du DMCA n’est qu’une question d’interprétation juridique
      il est difficile de comprendre pourquoi des communautés en ligne en font une théorie du complot malveillante
  • Google fait encore de la recherche, maintenant ?
    De nos jours, la marque de chatbot que j’utilise évite 100 sites de spam SEO et me retrouve la même information, donc je ne vois pas comment battre cette commodité

    • J’ai entendu dire que les chatbots sont moins affectés par le spam que Google, mais je me demande si c’est vrai
    • Je me souviens d’une époque où Google faisait de la recherche
      (joli pseudo)
    • Les chatbots n’ont pas leur propre index à l’échelle d’Internet
      au final, cela revient à renoncer à son jugement pour vérifier directement la source de l’information
    • Entre 25 et 90 % des liens fournis par les chatbots sont des hallucinations
      ou alors ils ne font au fond que remplacer une recherche Google
    • L’IA basée sur les LLM est par nature vulnérable aux attaques par manipulation des données
      une véritable AGI au niveau humain détecterait ce genre de tentative, mais les chatbots actuels n’en sont pas capables
      article lié : NYTimes - AI Chatbot Prompts and Manipulation
  • Je ne fais absolument aucune recherche qui pourrait déranger Google
    Les numéros de série, numéros de téléphone d’entreprise, articles scientifiques et livres, je les cherche tous sur Yandex ou Brave
    peu importe ce que fait Google, je ne l’utilise de toute façon pas

  • Je me dis qu’il faudrait télécharger tous les torrents z-archive avant qu’Anna’s Archive disparaisse
    En excluant les gros PDF et les livres non anglophones, ça devrait tenir compressé sur deux disques de 32 To
    https://annas-archive.org/torrents

    • Retirer les gros PDF me semble être un critère bien arbitraire
      si un PDF est volumineux, c’est souvent à cause de la couleur ou de la résolution, pas du contenu
    • Par le passé, j’ai réduit la taille en diminuant le DPI et la profondeur de couleur, puis en recompilant le tout en PDF
      on peut aussi identifier automatiquement plusieurs éditions d’un même livre pour ne garder qu’un seul epub et supprimer le reste
    • Moi aussi, j’aimerais créer une sauvegarde des versions anglaises, allemandes et françaises
      mais les HDD et le système de fichiers posent problème, donc il me faudra peut-être développer moi-même quelque chose comme un découpeur de torrents
    • J’organise la liste à l’envers en commençant par remplir avec les petits fichiers
  • https://annas-archive.org

  • Je n’ai presque jamais compté sur Google pour trouver le contenu de ce genre de sites
    le site lui-même est déjà bien indexé par titre, auteur, format et date, donc la recherche libre suffit largement

    • La recherche web à la Google a l’avantage de la recherche par approximation
      par exemple, en cherchant « a a a a ah ah ah ah dance song », elle retrouve “Million Voices” d’Otto Knows
    • Mais je me demande si ce genre de sites propose une vraie recherche plein texte (full-text search)
      je doute aussi que Google indexe le contenu intégral des pages d’Anna’s Archive
  • Après la fermeture récente de Library Genesis, Anna’s Archive semble être le dernier grand dépôt de livres restant
    je me demande s’il existe d’autres alternatives

    • Il y a Open-Slum.org, lié depuis Anna’s Archive
    • Pour les livres, je recommande WeLib.org, et pour les livres audio, AudiobookBay
  • La marche de Google vers l’insignifiance continue

    • Malgré tout, Google représente encore 97 % des requêtes de recherche dans le monde
  • L’environnement de la recherche web a complètement changé

    • Les plateformes fermées (walled gardens) se multiplient, créant de nombreuses zones inaccessibles aux moteurs de recherche
    • Il y a aussi beaucoup de données devenues inaccessibles à cause de contraintes juridiques
    • Désormais, il faut utiliser non seulement Google, mais aussi Yandex, Kagi et ChatGPT
    • J’utilise aussi mon propre index, Internet Places Database