2 points par GN⁺ 2025-01-11 | 1 commentaires | Partager sur WhatsApp
  • Visualisation des ISBN

    • Anna's Archive propose le plus grand catalogue ouvert de livres de l'histoire de l'humanité.
    • Chaque pixel représente 2�000 ISBN, et le pixel s'affiche en vert lorsqu'un fichier est disponible.
    • Seuls 16 % de l'ensemble des livres ont été sauvegardés, et davantage de travail est nécessaire.
  • Contexte

    • Anna's Archive dresse un catalogue de livres en utilisant les numéros ISBN afin de sauvegarder les connaissances de l'humanité.
    • Les ISBN sont attribués aux livres publiés dans la plupart des pays depuis les années 1970.
    • Le système fonctionne de manière distribuée, sans autorité centrale, et les numéros sont attribués dans l'ordre suivant : pays, grands éditeurs, puis petits éditeurs.
    • Anna's Archive scrape diverses sources de métadonnées comme ISBNdb, Worldcat et Google Books, et possède ainsi les plus vastes métadonnées ouvertes sur les livres.
    • Il est important d'identifier et de préserver les livres rares et menacés.
  • Visualisation

    • Il est possible de consulter séparément différents jeux de données, et de passer de l'un à l'autre à l'aide d'un menu déroulant et de boutons.
    • Parmi les jeux de données figurent Anna's Archive, Google Books, Goodreads, Internet Archive, etc.
    • On peut observer dans la visualisation des motifs tels que des lignes et des blocs réguliers, ainsi que des zones vides.
  • Prime de 10�000 $

    • Une prime est proposée pour améliorer la visualisation, et le code open source doit être soumis avant le 31 janvier 2025.
    • La meilleure proposition recevra 6�000 $, la deuxième 3�000 $ et la troisième 1�000 $, avec paiement en Monero (XMR).
    • Une partie de la prime pourra être versée même si la proposition ne satisfait pas aux critères minimums.
    • Les propositions doivent améliorer la visualisation en modifiant le HTML, et bien fonctionner sur desktop comme sur mobile.
    • Des points supplémentaires seront accordés en fonction de l'utilisabilité et de l'attrait visuel.
  • Code

    • Le code de génération des images et les exemples se trouvent dans un répertoire spécifique.
    • Un format de données compressé de 75 MB est utilisé pour fournir les informations ISBN.
    • Il n'est pas nécessaire d'utiliser ce format pour participer à la prime, mais c'est le format le plus pratique pour démarrer.
    • Tout le code doit être fourni en open source.

1 commentaires

 
GN⁺ 2025-01-11
Commentaires sur Hacker News
  • Visualiser les données avec une courbe de Hilbert permet de faire en sorte que des points proches dans une liste triée restent aussi visuellement proches. La première partie d’un ISBN correspond au pays, la deuxième à l’éditeur, la troisième au titre ; si l’on retire la somme de contrôle et qu’on trie comme un grand nombre, les grands pays d’édition devraient apparaître comme des « îles ». Ce serait bien d’ajouter des labels à ces zones

  • Les ISBN ne sont pas hiérarchiques et sont achetés par blocs, donc cette visualisation n’est ni particulièrement intéressante ni utile. Une visualisation basée sur la LoC ou la classification décimale de Dewey serait plus utile

  • Anna's Archive est l’une des merveilles du monde, et même si l’humanité frôlait l’extinction, tant qu’Anna's Archive survivait, il resterait un espoir de reconstruction rapide

  • À cause du daltonisme, il était impossible de distinguer les pixels rouges des verts, et même avec une extension de navigateur il n’était pas possible de distinguer davantage de couleurs. Je me demande si le graphique est étrange

  • L’IP du serveur a été bloquée dans l’UE. Chez l’ISP néerlandais Ziggo, le message affiché est : « Ce site web a été bloqué. Sanctions européennes »

  • Je me demande si d’autres voient le message : « Ce serveur ne peut pas prouver qu’il est annas-archive.org, et son certificat de sécurité a été émis pour *.hs.llnwd.net. Cela peut être dû à une mauvaise configuration ou au fait qu’un attaquant intercepte votre connexion »

  • Les visualisations faites avec D3 sont amusantes, et on peut cartographier beaucoup de choses et zoomer

  • Il est difficile de savoir à quoi correspond quoi dans le graphique. Si quelqu’un signalait Bookland (c’est-à-dire 978), ce serait plus facile à comprendre

  • Je me demande s’il est illégal de télécharger et d’utiliser le fichier ISBN. Je me demande ce qu’il y a de problématique dans le simple fait de disposer de cette information

  • Chaque pixel représente 2 500 ISBN, et si l’on possède le fichier ISBN, le pixel devient plus vert. Je ne comprends pas ce que signifie « plus vert », et je me demande si les pixels noirs représentent des ISBN non enregistrés