8 points par GN⁺ 2026-02-21 | 4 commentaires | Partager sur WhatsApp
  • En essayant de créer une application de suivi de lecture propre et pratique, à la manière de Letterboxd pour les films, le principal obstacle s’est révélé être un problème structurel du système ISBN
  • Il a été constaté que la Google Books API, utilisée pour la fonction de recherche de livres, renvoie plusieurs versions ISBN d’une même œuvre comme des entrées distinctes
  • Cela s’explique par la structure bibliographique (modèle FRBR), qui distingue l’« œuvre » (work), l’« expression » (expression) et la « manifestation » (manifestation) ; ainsi, même lorsqu’un utilisateur veut simplement noter qu’il a lu un livre, les données sont déjà très fragmentées
  • OpenLibrary propose une structure de données centrée sur l’« œuvre », mais présente encore des doublons et des lacunes, ce qui l’empêche d’être une alternative complète
  • Contrairement au cinéma avec TMDB, le secteur du livre ne dispose pas d’une infrastructure ouverte de métadonnées de haute qualité, ce qui constitue un frein majeur au développement de plateformes sociales centrées sur les livres

Comparaison entre Letterboxd et les plateformes autour du livre

  • Letterboxd permet de gérer facilement l’historique de visionnage grâce à une interface épurée et des fonctions sociales non intrusives
    • Les utilisateurs peuvent simplement enregistrer les films vus et la date de visionnage
  • À l’inverse, GoodReads rend le suivi de lecture peu pratique à cause d’une interface complexe et d’un parcours en plusieurs clics
    • Les catégories « livres lus » et « livres à lire » sont mélangées sur un même écran, tandis que des éléments annexes comme les challenges de lecture ou les newsletters occupent de la place
    • Si GoodReads est aussi peu ergonomique, c’est parce qu’il s’agit d’un produit dérivé peu prioritaire de l’activité de vente de livres d’Amazon
  • Storygraph souffre de problèmes similaires, si bien que les utilisateurs finissent par gérer leurs notes personnelles dans des fichiers Obsidian

La Google Books API et le problème de l’ISBN

  • La Google Books API a été utilisée pour créer une fonction de recherche de livres, mais une même œuvre apparaît en double à travers plusieurs ISBN
    • Par exemple, une recherche sur “The Last Unicorn” renvoie séparément des versions reliée, poche, eBook, révisée, etc., chacune avec un ISBN différent
  • Chaque ISBN correspond à un format ou une édition distincte, alors que l’utilisateur veut souvent simplement noter qu’il a lu le livre
  • Cette structure complique la recherche et l’intégration des données, ce qui la rend peu adaptée à la création d’un système de suivi au niveau de l’œuvre unique

Le modèle FRBR et l’approche par « œuvre »

  • Le modèle FRBR, utilisé en bibliothéconomie, répartit les données du livre en quatre niveaux
    • Work (œuvre) : la création abstraite elle-même (ex. : le roman "The Last Unicorn")
    • Expression (expression) : une version éditoriale spécifique
    • Manifestation (manifestation) : le format physique d’une édition donnée (poche, relié, etc.)
    • Item (exemplaire) : un objet physique individuel dans une collection
  • Google Books renvoie surtout des données au niveau de l’« expression » ou de la « manifestation », alors que les utilisateurs ont besoin d’une unité abstraite au niveau de l’« œuvre »
  • OpenLibrary propose une structure centrée sur l’« œuvre », mais comporte encore des entrées dupliquées
    • Exemple : lors d’une recherche sur Hotel Iris de Yoko Ogawa, la même œuvre apparaît quatre fois

Qualité des données et limites de l’écosystème

  • Letterboxd fonctionne à partir de The Movie Database (TMDB), qui contient environ 1 million de fiches de films
  • En face, OpenLibrary recense plus de 40 millions d’œuvres, mais avec beaucoup de données incomplètes et peu nettoyées
  • Les données sur le cinéma atteignent une meilleure qualité grâce à la combinaison de plateformes commerciales et de contributions communautaires, alors que les données sur les livres souffrent de leur ampleur et d’un manque de financement
  • Résultat : il n’existe pas de base de données suffisamment solide pour créer un service de type Letterboxd centré sur les livres

Conclusion et pistes futures

  • En l’absence d’une infrastructure open source complète de métadonnées du livre, développer une plateforme de suivi de lecture est une tâche bien plus difficile que pour le cinéma
  • L’auteur compte néanmoins continuer à essayer de construire un système indépendant de suivi de lecture
  • Comme pour la découverte des goûts cinématographiques, le suivi de lecture a lui aussi besoin d’une approche personnalisée

4 commentaires

 
nemorize 2026-02-21

Eh oui... l’ISBN est un identifiant de publication, pas un identifiant de contenu...
Le titre est vraiment trop putaclic lol

 
roxie 2026-02-27

Il semble que l’emplacement de l’identifiant du contenu soit vide :(

 
yeobi222 2026-02-22

Il est vrai aussi que le système ISBN n’a pas vraiment été conçu en tenant compte d’une classification systématique...
Même si les règles prévoient d’attribuer un numéro distinct à chaque réimpression, comme la catégorie la plus basse reste l’éditeur, la gestion n’est pas simple, malgré la nécessité d’un classement par œuvre.

 
GN⁺ 2026-02-21
Commentaires sur Hacker News
  • Cela fait penser à la structure de base de données de MusicBrainz
    Par exemple, l’album Nevermind de Nirvana constitue un release group unique, avec différentes versions selon le support ou le pays, comme cassette, CD, LP ou exemplaire promotionnel
    Dans certains cas, le numéro de catalogue ou le code-barres permet de les distinguer, mais dans d’autres, un même code correspond malgré tout à des versions différentes
    Même pour un même enregistrement, il peut y avoir des différences dues au remastering, au montage ou à la censure
    MusicBrainz suit ces écarts avec précision et distingue clairement ce qui est ou non le même enregistrement
    Lorsqu’il s’agit de reprises ou de standards enregistrés par plusieurs artistes, les informations sur le compositeur et le parolier sont reliées au niveau de la « work »
    Ce type de conception sophistiquée de base de données relationnelle semble très utile pour consigner à la fois l’identité et les différences des œuvres créatives
    Lien connexe

    • Récemment, une base de données appelée BookBrainz pour les livres est aussi exploitée en version alpha
      bookbrainz.org/about
      Si le schéma est similaire à celui de MusicBrainz, l’extraction des données devrait être très facile
    • En essayant d’enregistrer dans MusicBrainz un CD du concerto pour deux violons de Bach, j’ai déjà rencontré une erreur d’indexation CD-ID
      J’ai créé un compte, téléversé moi-même les données, puis réussi l’enregistrement après plusieurs corrections
      J’ai trouvé et utilisé comme référence les informations du même CD, édition australienne, sur un site chinois, ce qui m’a fait comprendre qu’il existe selon les marchés des versions subtilement différentes
      Je comprends donc profondément l’équipe de MusicBrainz lorsqu’elle dit que les gens sont bien trop laxistes pour mettre à jour les « identifiants uniques »
    • L’album In My Tribe de 10000 Maniacs est un bon exemple
      Les éditions de 1987 et de 1989 (version sans « Peace Train ») avaient le même numéro UPC
      Je me souviens m’être donné du mal dans des magasins de CD d’occasion au milieu des années 1990 pour trouver la version antérieure au retrait
    • J’ai récemment scanné des codes-barres de CD, et MusicBrainz en reconnaît 90 à 95 %
      Pour le reste, c’était confus car il existait plusieurs versions selon les régions, avec un nombre de pistes différent
      S’il y avait eu une fonction permettant d’indiquer les informations d’artiste pour chaque piste, la précision de la recherche aurait probablement été meilleure
    • Pour un livre publié via Kindle Press, l’ISBN est le même, mais il existe au moins 3 révisions officielles ainsi que plusieurs versions avec de petites corrections
      Même lorsqu’il ne s’agit que de corriger des coquilles, il est difficile de les distinguer
  • Wikidata est une base de données publique compatible FRBR, et la qualité des données sur les livres s’est fortement améliorée ces dernières années
    Dans l’exemple donné, Hôtel Iris de Yōko Ogawa ne correspond pas à une même œuvre, mais à des traductions différentes
    Une traduction devrait être considérée comme une œuvre dérivée distincte de l’original
    Cela dit, les listes sont mélangées et contiennent beaucoup d’erreurs

    • Dans FRBR, une traduction est généralement aussi considérée comme la même œuvre (work)
      Dans OpenLibrary, tout est regroupé sous une seule work, et la langue ainsi que les informations sur le traducteur sont stockées dans l’édition
      Les doublons actuels semblent venir d’un problème apparu lors du processus de fusion automatique par langue
    • Même si l’on considère une traduction comme un dérivé séparé, il faudrait les regrouper sous une même entité au moment de la recherche
      L’idéal est de permettre à l’utilisateur d’explorer ensemble l’original et les traductions
  • Recommande LibraryThing
    Cela semble bien meilleur que Goodreads
    Il est important de distinguer la structure WEMI (work, expression, manifestation, item) d’un livre
    Dire « j’ai lu Don Quichotte » relève du niveau work, tandis que dire « mon exemplaire a une tache de café » relève du niveau item

  • Lors d’un concours de lecture à l’échelle d’un État, les livres étaient gérés uniquement par ISBN, ce qui rendait leur recherche difficile pour les élèves
    Un JOIN SQL a donc été ajouté à l’aide de la base de données de correspondance ISBN de WorldCat pour relier les différents ISBN d’un même contenu
    Résultat, sur 10 ans, les élèves ont lu plus d’un million de livres supplémentaires

    • Une question a ensuite été posée pour connaître la requête SQL
  • Anna’s Archive a beaucoup contribué au nettoyage des données liées aux ISBN
    Le site a utilisé du scraping de WorldCat et construit actuellement aussi une base de données ISSN (périodiques)
    Les données ISSN sont dans un état bien plus pauvre que celles des livres

  • Rappelle qu’Open Library trouve son origine dans les premiers travaux de Brewster Kahle (fondateur d’Internet Archive) et Aaron Swartz
    Blog connexe

  • Il est déjà arrivé d’acheter un livre après l’avoir vu en librairie, puis de rentrer chez soi et de constater qu’on possédait déjà la même édition
    Si l’on avait pu rechercher sa collection via ISBN, cela aurait permis d’éviter ces achats en double

    • Réponse d’une personne disant qu’elle possède près d’un millier d’ebooks seulement, et qu’elle sait exactement lesquels elle a, donc cela ne lui arrive jamais
  • Quelqu’un a déjà créé, comme projet personnel, un site de gestion de livres utilisant l’API d’ISBNDB
    Lors d’une recherche par titre, les nombreuses éditions, langues et formes de reliure se mélangeaient, rendant les résultats très complexes
    Les résultats ont été organisés à l’aide de la similarité de Jaccard, mais cela restait imparfait
    OpenLibrary est actuellement étudié comme alternative

  • L’application StoryGraph ne semble pas mauvaise
    Son interface, pensée pour les utilisateurs qui veulent éviter les fonctions IA, est appréciée
    La recherche est également bonne

    • Hardcover.app est aussi une bonne alternative
      Utilisé personnellement depuis 2017, avec le choix assumé d’une sortie de l’oligopole
  • L’ISBN inclut un identifiant d’éditeur, si bien qu’un même livre peut avoir des ISBN différents selon le marché

    • En Nouvelle-Zélande, les ISBN sont attribués via un service gouvernemental pour les bibliothèques, et il faut enregistrer le nom de l’éditeur
      C’est un service gratuit, donc cela peut varier selon les pays
    • Les ISBN sont achetés par blocs par les éditeurs ou les entreprises, puis attribués en interne à chaque imprint
      Le nom de l’éditeur n’y figure donc pas directement, mais la structure permet de l’identifier