1 points par GN⁺ 4 시간 전 | 1 commentaires | Partager sur WhatsApp
  • Anna’s Archive a mis en place une prime de 200 000 dollars pour obtenir l’intégralité des scans de livres de Google Books ou une collection d’ampleur comparable
  • L’accès actuel à Google Books repose surtout sur de petits extraits autour des résultats de recherche ; obtenir les scans complets est donc considéré comme un enjeu central du point de vue de l’archivage
  • Si vous avez trouvé une méthode extensible, il est conseillé de prendre contact dès le stade du prototype, sans attendre une version finalisée
  • Les personnes ayant un accès interne chez Google sont également concernées ; même l’obtention du texte OCR seul, sans les images, pourrait donner droit à la moitié de la prime
  • La cible ne se limite pas à Google Books : elle s’applique aussi à de vastes collections, notamment de livres rares, rassemblées par des entreprises d’IA ou d’autres acteurs

Objet de la prime et conditions de participation

  • Anna’s Archive propose une prime de 200 000 $ pour obtenir l’intégralité des scans de Google Books ou d’une collection similaire
  • Avant de commencer, il faut lire attentivement les instructions d’Anna’s Archive sur les primes
  • Google Books possède de nombreux livres scannés, mais lorsqu’on y accède via la recherche, seuls de petits extraits autour des résultats sont visibles
  • Si vous trouvez une méthode qui semble pouvoir passer à l’échelle, il est conseillé de prendre contact tôt avec un prototype, sans attendre d’avoir une version complète
    • Anna’s Archive pourra aider ensuite au travail de passage à l’échelle
  • Les personnes travaillant chez Google et ayant accès à ces données sont également éligibles à la prime
    • Le texte indique que 200 000 $ n’est peut-être pas une somme énorme, mais que si quelqu’un parvient à faire sortir ces données, il sera considéré comme un « archiviste légendaire »
  • La prime s’applique aussi à des collections d’ampleur similaire autres que Google Books
    • Les collections constituées par des entreprises d’IA sont citées en exemple
    • Les collections contenant notamment une quantité importante de livres rares sont éligibles

Volumes et modes de transmission résumés dans les commentaires

  • Un commentaire indiquait que l’ensemble de l’archive représentait environ 7 Po, en incluant des contenus protégés par le droit d’auteur, mais cela a ensuite été corrigé à environ 1,5 Po, chiffre incluant une copie du site de l’IUPUI
  • Les contenus du domaine public et ceux mis à disposition par leurs auteurs sont mentionnés comme représentant environ 300 To
  • Anna’s Archive a répondu être disposée à ajouter une prime distincte s’il n’existe pas encore de scraping pour les contenus du domaine public et ceux mis à disposition par leurs auteurs
  • Même si seules les données de texte OCR sont extraites, sans les images complètes, la moitié de cette prime pourrait être versée pour les besoins de cette prime
  • Comme mode de transmission en cas d’obtention d’un grand volume de données, SFTP ou une méthode similaire est mentionné
  • Le titre de l’issue a été modifié le 7 juin 2025 en Google Books (or similar) all book scans — $200,000 bounty

1 commentaires

 
GN⁺ 4 시간 전
Avis de Hacker News
  • Je vis dans un pays où il est difficile de se procurer des livres en anglais ; les achats en ligne à l’étranger impliquent beaucoup trop de démarches administratives et de restrictions.
    Sans Anna's Archive et Z-Library, je n’aurais pas pu lire les livres qui ont fait de moi ce que je suis aujourd’hui, et il m’aurait été difficile de conserver ma passion pour l’apprentissage.
    Je suis aussi reconnaissant envers les auteurs dont j’ai acquis le savoir sans pouvoir rembourser le prix des livres.

    • À moitié pour rire et à moitié sérieusement, on pourrait donc dire que toute ma vie actuelle repose sur le produit d’un crime, mais le savoir devrait être libre.
      Le savoir n’a pas été créé dans le vide ; il appartient à tout le monde.
    • Je comprends cette position, mais si les auteurs n’avaient pas pu gagner d’argent, il est très probable que beaucoup de ces livres n’auraient jamais existé.
      Il y a quelque temps, sur Reddit, un auteur avait publié des statistiques montrant que les ventes réelles de son livre s’étaient effondrées après sa mise en ligne sur des sites de partage illégal.
      C’est pourquoi j’essaie d’acheter les livres de programmation autant que possible, et j’utilise les PDF comme des aperçus. En fait, grâce à cela, j’en ai acheté beaucoup plus qu’avant.
      Bien sûr, si l’on vit dans une région où l’achat est tout simplement impossible, c’est une autre histoire, mais lorsqu’on fait l’éloge de ce type de sites, on a tendance à ne voir que leurs aspects positifs.
    • Heureusement que le nom d’utilisateur indique la localisation. Ce qui m’agace le plus en ligne ces temps-ci, c’est quand quelqu’un dit « dans mon pays » sans jamais préciser de quel pays il s’agit.
    • https://send.djazz.se/
      Un outil essentiel pour envoyer des EPUB vers Kobo.
  • https://SourceLibrary.org contient environ 16 000 traductions de livres rares, dont la plupart sont les premières traductions.
    50 000 livres y sont archivés et devraient être traduits lorsque des financements seront disponibles ; le nombre de tokens dépasse celui de Wikipédia en anglais et l’ensemble représente environ 0,75 Po.
    Je ne sais pas si cela peut entrer dans le cadre de la prime, mais je voulais le partager, et nous cherchons de petits comme de grands mécènes pour aider à traduire des textes de la Renaissance.

    • Le résultat est beau, les réponses sont pertinentes et il y a une vraie résonance. Le financement pourrait aussi passer par quelque chose comme une API de recherche payante.
    • Ça a l’air intéressant.
      Il n’est pas évident de comprendre d’emblée tout ce qui a été archivé, mais parmi mes amis historiens universitaires, certains pourraient s’intéresser à des domaines précis, et certains pourraient aussi aider à vérifier des langues obscures.
      Je me demande s’il est possible de faire une recherche par région ou par langue.
      Je me demande aussi si vous avez déjà contacté des historiens à propos du projet. Des doctorants pourraient peut-être y trouver des sujets de recherche.
      En consultant la timeline https://sourcelibrary.org/timeline, j’ai obtenu une erreur.
    • Je suis curieux de savoir quel budget il a fallu pour en arriver là. Le nombre de tokens est énorme ; j’imagine que vous utilisez probablement Gemini Flash.
  • Hier, Anna's Archive m’a vraiment rendu service.
    Pendant plusieurs jours, j’ai cherché le fichier ZIP d’un CD fourni avec un livre de programmation du début des années 2000 ; toutes les annonces d’occasion disaient que le CD manquait, les recherches ne donnaient rien, et les LLM ne l’ont pas trouvé non plus.
    ChatGPT répétait qu’il était sur archive, mais en réalité il n’y était pas. Par acquis de conscience, je suis allé voir sur AA, et les fichiers ZIP pour la 1re comme pour la 2e édition y étaient. Un vrai sauveur.

  • Je me demande combien de temps il faudra avant qu’une prime soit proposée aussi pour le scraping du Web.
    À cause des CAPTCHA Cloudflare, Internet est devenu presque inutilisable pour moi, et j’ai l’impression que ça ne fera qu’empirer.
    Je préfère encore parcourir des copies de sites comme archive.is, ou les récupérer en torrent. Cette dernière option est aussi bien meilleure pour la confidentialité, et de toute façon j’utilise déjà un bloqueur de pubs.

    • Il y a de fortes chances que quelqu’un sur le même réseau fasse tourner un jeu monétisé via des proxys Bright Data. Il y avait justement un fil à ce sujet il y a quelques jours.
      Ça pourrait même être une smart TV. Si vous trouvez la cause et la supprimez, la réputation de votre IP pourrait s’améliorer et vous verriez probablement moins de CAPTCHA.
    • https://x.com/CloudflareDev/status/2031488099725754821
      Il y a ce petit conflit d’intérêts.
  • Je me demande qui est derrière Anna's Archive. On voit beaucoup d’anglophones dans l’équipe et sur le forum.
    Quoi qu’il en soit, tant que l’achat n’est pas la propriété, je ne vois pas le problème.

    • On dirait qu’Anna est derrière tout ça.
      https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
      https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
    • Une bonne partie des livres qui s’y trouvent doivent de toute façon pouvoir être achetés à l’origine dans un format sans DRM. Plus d’auteurs qu’on ne le pense ne se soucient pas vraiment des DRM.
      Et si vous achetez un livre papier, l’achat devient clairement une propriété ; pour les livres, cette phrase me paraît donc un peu mal adaptée.
    • Il me semble que la source principale était russe, ou alors c’était peut-être LibGen.
      Cela dit, ce qui est encore plus surprenant, c’est le peu d’alternatives. Après la guerre menée par Facebook et d’autres contre LibGen, puis la mise hors ligne de LibGen, il y avait étonnamment peu d’alternatives, et Anna's Archive était l’une des rares options.
      Je ne sais toujours pas exactement ce qui est arrivé à LibGen, mais depuis cette attaque, le site semble en pratique à moitié disparu.
    • Si vous pensez vraiment qu’il n’y a aucun problème, je me demande pourquoi vous demandez sur un forum public qui est derrière.
  • Dans la phrase « lisez attentivement [this] avant de travailler sur la prime », [this] pointe vers une adresse en .li, qui mène à un endroit dangereux.
    La bonne adresse devrait être https://annas-archive.gl/volunteering#bounties.

  • S’il y a quelqu’un chez Google qui s’inquiète de se faire licencier en ce moment, c’est peut-être son plan B

    • S’il se fait prendre en train d’exfiltrer des données, il sera poursuivi pour un montant bien supérieur à 200 000 dollars
    • Il est peu probable qu’un employé lambda ait accès à l’ensemble de l’archive
      Et même parmi les très rares personnes qui ont cet accès, il y a de fortes chances que les systèmes automatiques les détectent dès qu’elles commenceraient à télécharger ne serait-ce qu’une infime partie du contenu
    • Le plus gros problème, c’est que cela entraînerait un préjudice financier. Il faudrait probablement même se préparer à s’installer dans un autre pays
  • Parmi les autres missions de prime intéressantes qu’ils proposent : https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
    Achat de l’ensemble du jeu de données MARC de la Library of Congress — prime de 3 000 dollars
    Pages Wikipedia en anglais sur des institutions liées — jusqu’à 100 dollars par nouvelle page
    Internet Archive Digital Lending — 5 000 dollars par million de PDF
    Version texte de bibliothèques entières — 20 000 dollars, etc.

  • Je me demande ce que vont devenir le piratage et le droit d’auteur
    La situation actuelle, centrée sur la location, ne semble pas tenable. Même des gens ordinaires autour de moi connaissent désormais bien des choses comme les VPN et les NAS

    • Quand on cherche à voir à quel point les auteurs et artistes qui créent réellement les œuvres sont peu rémunérés, on en vient à espérer que la guillotine soit la réponse
    • Ce n’était pas une structure durable au départ, mais une capture réglementaire par de grands détenteurs de droits de propriété intellectuelle
      Spotify, Netflix, Amazon, etc. ont offert une valeur correcte pendant un temps, mais maintenant que la dégradation des services s’accélère, il est temps qu’un retour massif se produise
  • Gemini a très probablement déjà été entraîné sur ces livres, donc en théorie il pourrait recracher certaines phrases telles quelles
    Des cas de ce type étaient déjà apparus dans le procès intenté par le NYT contre OpenAI

    • Gemini, GPT et Fable sont en fait de très bonnes versions compressées du contenu d’Internet
      Ce n’est toutefois pas une compression sans perte : ils ont trouvé un moyen de conserver les parties importantes pour accomplir la tâche de prédiction du prochain token, et d’imiter le reste