- Anna’s Archive est un métamoteur de recherche de bibliothèques fantômes permettant de trouver des ebooks piratés et d’autres documents, lancé à l’automne 2022
- Au cours des trois dernières années, Google a supprimé 749 millions d’URL de ce site de ses résultats de recherche à la suite de signalements pour atteinte au droit d’auteur émanant d’éditeurs et d’auteurs
- Cela représente 5 % de l’ensemble des URL liées au droit d’auteur traitées par Google jusqu’à présent, soit un volume bien supérieur à celui de The Pirate Bay
- Plus de 1 000 ayants droit, dont Penguin Random House et John Wiley & Sons, ont soumis des demandes DMCA, et environ 10 millions de nouvelles URL sont signalées chaque semaine
- Malgré ces suppressions massives, le domaine principal d’Anna’s Archive reste accessible et le site est encore facile à trouver sur Google en recherchant son nom
Présentation d’Anna’s Archive
- Anna’s Archive est un métamoteur de recherche qui permet d’effectuer des recherches fédérées dans plusieurs bibliothèques fantômes et de trouver des livres et documents piratés
- Il a été lancé à l’automne 2022, juste après la répression menée par les autorités américaines contre Z-Library
- Le projet est né de la volonté de continuer à fournir au public des livres et articles scientifiques « gratuits »
- Depuis son lancement, il a fait l’objet de mesures de blocage dans plusieurs pays et d’une action en justice aux États-Unis pour collecte non autorisée de 2,2 To de données WorldCat
- Le site mène également des activités visant à faciliter l’accès aux données pour les chercheurs en IA
Les suppressions massives opérées par Google
- Google retire de ses résultats de recherche les URL soupçonnées de porter atteinte au droit d’auteur à la demande des ayants droit
- Concernant Anna’s Archive, un total de 784 millions d’URL a été signalé, dont 749 millions ont effectivement été supprimées
- Certains liens n’avaient pas été indexés par Google et ont donc été exclus des suppressions
- À titre de comparaison, The Pirate Bay a vu 4,2 millions d’URL supprimées, ce qui montre l’ampleur bien plus importante du cas Anna’s Archive
- Le site exploite plusieurs sous-domaines nationaux et possède un très grand nombre de pages, ce qui augmente le volume d’URL visées par les suppressions
5 % de l’ensemble des suppressions pour droit d’auteur chez Google
- Selon le rapport de transparence de Google, 15,1 milliards d’URL pour atteinte au droit d’auteur ont été signalées depuis 2012
- Parmi elles, les URL liées à Anna’s Archive représentent 5 % du total
- Penguin Random House et John Wiley & Sons figurent parmi les principaux plaignants, et plus de 1 000 éditeurs et auteurs ont soumis des demandes DMCA
- Encore aujourd’hui, environ 10 millions de nouvelles URL supplémentaires sont signalées chaque semaine
Visibilité dans les résultats de recherche
- En raison de ces suppressions massives, la visibilité du site a diminué sur les recherches liées aux livres
- De nombreuses URL ne sont plus affichées ou ont reculé dans le classement
- En revanche, une recherche directe sur le nom “Anna’s Archive” affiche toujours son domaine principal parmi les premiers résultats
- Malgré les mesures prises par Google, l’accès au site lui-même n’est pas bloqué
Réponse de l’industrie de l’édition et ses limites
- Les éditeurs ayant des difficultés à bloquer directement le site, ils continuent de soumettre des demandes de suppression à des plateformes tierces comme Google
- Malgré la pression juridique, les principaux domaines comme annas-archive.org, .li et .se restent toujours en service
- Le texte source ne mentionne aucune mesure future supplémentaire ni évolution de politique
1 commentaires
Avis Hacker News
Cela peut sembler étrange, mais j’ai constaté que Yandex est un excellent moteur de recherche pour retrouver des contenus déréférencés à cause de demandes DMCA
Par exemple, quand je veux regarder en streaming sur le web un film qui n’est pas sur Netflix, les résultats sont bien meilleurs
C’est comme réutiliser Google en 2005
parce que Google, Bing et DuckDuckGo ne donnaient plus de résultats corrects
ces jours-ci, on ne voit plus que de courtes correspondances partielles sur des sites comme les explorateurs de blockchain, et je ne sais pas si c’est volontaire ou si c’est à cause d’une tentative de fuzzy matching
dans tous les cas, c’est un échec total pour cet usage
Google est beaucoup trop personnalisé
un bon moteur affiche les sites pirates, et un excellent moteur les classe au-dessus des faux résultats
mais plus un moteur est excellent, plus il finit par attirer l’attention et par voir ces résultats supprimés
à partir de ce moment-là, il faut aller chercher ailleurs
alors que sur Yandex, il est apparu directement dans le top 3
au passage, DDG est désormais presque identique à Google, avec même des résultats sponsorisés
Anna’s Archive a déjà fourni toutes les données nécessaires à l’entraînement de Gemini de Google, donc maintenant on dirait qu’ils font comme si le site n’existait pas
il est difficile de comprendre pourquoi des communautés en ligne en font une théorie du complot malveillante
Google fait encore de la recherche, maintenant ?
De nos jours, la marque de chatbot que j’utilise évite 100 sites de spam SEO et me retrouve la même information, donc je ne vois pas comment battre cette commodité
(joli pseudo)
au final, cela revient à renoncer à son jugement pour vérifier directement la source de l’information
ou alors ils ne font au fond que remplacer une recherche Google
une véritable AGI au niveau humain détecterait ce genre de tentative, mais les chatbots actuels n’en sont pas capables
article lié : NYTimes - AI Chatbot Prompts and Manipulation
Je ne fais absolument aucune recherche qui pourrait déranger Google
Les numéros de série, numéros de téléphone d’entreprise, articles scientifiques et livres, je les cherche tous sur Yandex ou Brave
peu importe ce que fait Google, je ne l’utilise de toute façon pas
Je me dis qu’il faudrait télécharger tous les torrents z-archive avant qu’Anna’s Archive disparaisse
En excluant les gros PDF et les livres non anglophones, ça devrait tenir compressé sur deux disques de 32 To
https://annas-archive.org/torrents
si un PDF est volumineux, c’est souvent à cause de la couleur ou de la résolution, pas du contenu
on peut aussi identifier automatiquement plusieurs éditions d’un même livre pour ne garder qu’un seul epub et supprimer le reste
mais les HDD et le système de fichiers posent problème, donc il me faudra peut-être développer moi-même quelque chose comme un découpeur de torrents
https://annas-archive.org
Je n’ai presque jamais compté sur Google pour trouver le contenu de ce genre de sites
le site lui-même est déjà bien indexé par titre, auteur, format et date, donc la recherche libre suffit largement
par exemple, en cherchant « a a a a ah ah ah ah dance song », elle retrouve “Million Voices” d’Otto Knows
je doute aussi que Google indexe le contenu intégral des pages d’Anna’s Archive
Après la fermeture récente de Library Genesis, Anna’s Archive semble être le dernier grand dépôt de livres restant
je me demande s’il existe d’autres alternatives
La marche de Google vers l’insignifiance continue
L’environnement de la recherche web a complètement changé