Une prime de 200 000 dollars proposée pour obtenir l’intégralité des scans de Google Books ou d’une collection similaire (2025)
(software.annas-archive.gl)- Anna’s Archive a mis en place une prime de 200 000 dollars pour obtenir l’intégralité des scans de livres de Google Books ou une collection d’ampleur comparable
- L’accès actuel à Google Books repose surtout sur de petits extraits autour des résultats de recherche ; obtenir les scans complets est donc considéré comme un enjeu central du point de vue de l’archivage
- Si vous avez trouvé une méthode extensible, il est conseillé de prendre contact dès le stade du prototype, sans attendre une version finalisée
- Les personnes ayant un accès interne chez Google sont également concernées ; même l’obtention du texte OCR seul, sans les images, pourrait donner droit à la moitié de la prime
- La cible ne se limite pas à Google Books : elle s’applique aussi à de vastes collections, notamment de livres rares, rassemblées par des entreprises d’IA ou d’autres acteurs
Objet de la prime et conditions de participation
- Anna’s Archive propose une prime de 200 000 $ pour obtenir l’intégralité des scans de Google Books ou d’une collection similaire
- Avant de commencer, il faut lire attentivement les instructions d’Anna’s Archive sur les primes
- Google Books possède de nombreux livres scannés, mais lorsqu’on y accède via la recherche, seuls de petits extraits autour des résultats sont visibles
- Si vous trouvez une méthode qui semble pouvoir passer à l’échelle, il est conseillé de prendre contact tôt avec un prototype, sans attendre d’avoir une version complète
- Anna’s Archive pourra aider ensuite au travail de passage à l’échelle
- Les personnes travaillant chez Google et ayant accès à ces données sont également éligibles à la prime
- Le texte indique que 200 000 $ n’est peut-être pas une somme énorme, mais que si quelqu’un parvient à faire sortir ces données, il sera considéré comme un « archiviste légendaire »
- La prime s’applique aussi à des collections d’ampleur similaire autres que Google Books
- Les collections constituées par des entreprises d’IA sont citées en exemple
- Les collections contenant notamment une quantité importante de livres rares sont éligibles
Volumes et modes de transmission résumés dans les commentaires
- Un commentaire indiquait que l’ensemble de l’archive représentait environ 7 Po, en incluant des contenus protégés par le droit d’auteur, mais cela a ensuite été corrigé à environ 1,5 Po, chiffre incluant une copie du site de l’IUPUI
- Les contenus du domaine public et ceux mis à disposition par leurs auteurs sont mentionnés comme représentant environ 300 To
- Anna’s Archive a répondu être disposée à ajouter une prime distincte s’il n’existe pas encore de scraping pour les contenus du domaine public et ceux mis à disposition par leurs auteurs
- Même si seules les données de texte OCR sont extraites, sans les images complètes, la moitié de cette prime pourrait être versée pour les besoins de cette prime
- Comme mode de transmission en cas d’obtention d’un grand volume de données, SFTP ou une méthode similaire est mentionné
- Le titre de l’issue a été modifié le 7 juin 2025 en
Google Books (or similar) all book scans — $200,000 bounty
1 commentaires
Avis de Hacker News
Je vis dans un pays où il est difficile de se procurer des livres en anglais ; les achats en ligne à l’étranger impliquent beaucoup trop de démarches administratives et de restrictions.
Sans Anna's Archive et Z-Library, je n’aurais pas pu lire les livres qui ont fait de moi ce que je suis aujourd’hui, et il m’aurait été difficile de conserver ma passion pour l’apprentissage.
Je suis aussi reconnaissant envers les auteurs dont j’ai acquis le savoir sans pouvoir rembourser le prix des livres.
Le savoir n’a pas été créé dans le vide ; il appartient à tout le monde.
Il y a quelque temps, sur Reddit, un auteur avait publié des statistiques montrant que les ventes réelles de son livre s’étaient effondrées après sa mise en ligne sur des sites de partage illégal.
C’est pourquoi j’essaie d’acheter les livres de programmation autant que possible, et j’utilise les PDF comme des aperçus. En fait, grâce à cela, j’en ai acheté beaucoup plus qu’avant.
Bien sûr, si l’on vit dans une région où l’achat est tout simplement impossible, c’est une autre histoire, mais lorsqu’on fait l’éloge de ce type de sites, on a tendance à ne voir que leurs aspects positifs.
Un outil essentiel pour envoyer des EPUB vers Kobo.
https://SourceLibrary.org contient environ 16 000 traductions de livres rares, dont la plupart sont les premières traductions.
50 000 livres y sont archivés et devraient être traduits lorsque des financements seront disponibles ; le nombre de tokens dépasse celui de Wikipédia en anglais et l’ensemble représente environ 0,75 Po.
Je ne sais pas si cela peut entrer dans le cadre de la prime, mais je voulais le partager, et nous cherchons de petits comme de grands mécènes pour aider à traduire des textes de la Renaissance.
Il n’est pas évident de comprendre d’emblée tout ce qui a été archivé, mais parmi mes amis historiens universitaires, certains pourraient s’intéresser à des domaines précis, et certains pourraient aussi aider à vérifier des langues obscures.
Je me demande s’il est possible de faire une recherche par région ou par langue.
Je me demande aussi si vous avez déjà contacté des historiens à propos du projet. Des doctorants pourraient peut-être y trouver des sujets de recherche.
En consultant la timeline https://sourcelibrary.org/timeline, j’ai obtenu une erreur.
Hier, Anna's Archive m’a vraiment rendu service.
Pendant plusieurs jours, j’ai cherché le fichier ZIP d’un CD fourni avec un livre de programmation du début des années 2000 ; toutes les annonces d’occasion disaient que le CD manquait, les recherches ne donnaient rien, et les LLM ne l’ont pas trouvé non plus.
ChatGPT répétait qu’il était sur archive, mais en réalité il n’y était pas. Par acquis de conscience, je suis allé voir sur AA, et les fichiers ZIP pour la 1re comme pour la 2e édition y étaient. Un vrai sauveur.
Je me demande combien de temps il faudra avant qu’une prime soit proposée aussi pour le scraping du Web.
À cause des CAPTCHA Cloudflare, Internet est devenu presque inutilisable pour moi, et j’ai l’impression que ça ne fera qu’empirer.
Je préfère encore parcourir des copies de sites comme archive.is, ou les récupérer en torrent. Cette dernière option est aussi bien meilleure pour la confidentialité, et de toute façon j’utilise déjà un bloqueur de pubs.
Ça pourrait même être une smart TV. Si vous trouvez la cause et la supprimez, la réputation de votre IP pourrait s’améliorer et vous verriez probablement moins de CAPTCHA.
Il y a ce petit conflit d’intérêts.
Je me demande qui est derrière Anna's Archive. On voit beaucoup d’anglophones dans l’équipe et sur le forum.
Quoi qu’il en soit, tant que l’achat n’est pas la propriété, je ne vois pas le problème.
https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
Et si vous achetez un livre papier, l’achat devient clairement une propriété ; pour les livres, cette phrase me paraît donc un peu mal adaptée.
Cela dit, ce qui est encore plus surprenant, c’est le peu d’alternatives. Après la guerre menée par Facebook et d’autres contre LibGen, puis la mise hors ligne de LibGen, il y avait étonnamment peu d’alternatives, et Anna's Archive était l’une des rares options.
Je ne sais toujours pas exactement ce qui est arrivé à LibGen, mais depuis cette attaque, le site semble en pratique à moitié disparu.
Dans la phrase « lisez attentivement [this] avant de travailler sur la prime », [this] pointe vers une adresse en .li, qui mène à un endroit dangereux.
La bonne adresse devrait être https://annas-archive.gl/volunteering#bounties.
S’il y a quelqu’un chez Google qui s’inquiète de se faire licencier en ce moment, c’est peut-être son plan B
Et même parmi les très rares personnes qui ont cet accès, il y a de fortes chances que les systèmes automatiques les détectent dès qu’elles commenceraient à télécharger ne serait-ce qu’une infime partie du contenu
Parmi les autres missions de prime intéressantes qu’ils proposent : https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
Achat de l’ensemble du jeu de données MARC de la Library of Congress — prime de 3 000 dollars
Pages Wikipedia en anglais sur des institutions liées — jusqu’à 100 dollars par nouvelle page
Internet Archive Digital Lending — 5 000 dollars par million de PDF
Version texte de bibliothèques entières — 20 000 dollars, etc.
https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items/194
Je me demande ce que vont devenir le piratage et le droit d’auteur
La situation actuelle, centrée sur la location, ne semble pas tenable. Même des gens ordinaires autour de moi connaissent désormais bien des choses comme les VPN et les NAS
Spotify, Netflix, Amazon, etc. ont offert une valeur correcte pendant un temps, mais maintenant que la dégradation des services s’accélère, il est temps qu’un retour massif se produise
Gemini a très probablement déjà été entraîné sur ces livres, donc en théorie il pourrait recracher certaines phrases telles quelles
Des cas de ce type étaient déjà apparus dans le procès intenté par le NYT contre OpenAI
Ce n’est toutefois pas une compression sans perte : ils ont trouvé un moyen de conserver les parties importantes pour accomplir la tâche de prédiction du prochain token, et d’imiter le reste