- En essayant de créer une application de suivi de lecture propre et pratique, à la manière de Letterboxd pour les films, le principal obstacle s’est révélé être un problème structurel du système ISBN
- Il a été constaté que la Google Books API, utilisée pour la fonction de recherche de livres, renvoie plusieurs versions ISBN d’une même œuvre comme des entrées distinctes
- Cela s’explique par la structure bibliographique (modèle FRBR), qui distingue l’« œuvre » (work), l’« expression » (expression) et la « manifestation » (manifestation) ; ainsi, même lorsqu’un utilisateur veut simplement noter qu’il a lu un livre, les données sont déjà très fragmentées
- OpenLibrary propose une structure de données centrée sur l’« œuvre », mais présente encore des doublons et des lacunes, ce qui l’empêche d’être une alternative complète
- Contrairement au cinéma avec TMDB, le secteur du livre ne dispose pas d’une infrastructure ouverte de métadonnées de haute qualité, ce qui constitue un frein majeur au développement de plateformes sociales centrées sur les livres
Comparaison entre Letterboxd et les plateformes autour du livre
- Letterboxd permet de gérer facilement l’historique de visionnage grâce à une interface épurée et des fonctions sociales non intrusives
- Les utilisateurs peuvent simplement enregistrer les films vus et la date de visionnage
- À l’inverse, GoodReads rend le suivi de lecture peu pratique à cause d’une interface complexe et d’un parcours en plusieurs clics
- Les catégories « livres lus » et « livres à lire » sont mélangées sur un même écran, tandis que des éléments annexes comme les challenges de lecture ou les newsletters occupent de la place
- Si GoodReads est aussi peu ergonomique, c’est parce qu’il s’agit d’un produit dérivé peu prioritaire de l’activité de vente de livres d’Amazon
- Storygraph souffre de problèmes similaires, si bien que les utilisateurs finissent par gérer leurs notes personnelles dans des fichiers Obsidian
La Google Books API et le problème de l’ISBN
- La Google Books API a été utilisée pour créer une fonction de recherche de livres, mais une même œuvre apparaît en double à travers plusieurs ISBN
- Par exemple, une recherche sur “The Last Unicorn” renvoie séparément des versions reliée, poche, eBook, révisée, etc., chacune avec un ISBN différent
- Chaque ISBN correspond à un format ou une édition distincte, alors que l’utilisateur veut souvent simplement noter qu’il a lu le livre
- Cette structure complique la recherche et l’intégration des données, ce qui la rend peu adaptée à la création d’un système de suivi au niveau de l’œuvre unique
Le modèle FRBR et l’approche par « œuvre »
- Le modèle FRBR, utilisé en bibliothéconomie, répartit les données du livre en quatre niveaux
- Work (œuvre) : la création abstraite elle-même (ex. : le roman "The Last Unicorn")
- Expression (expression) : une version éditoriale spécifique
- Manifestation (manifestation) : le format physique d’une édition donnée (poche, relié, etc.)
- Item (exemplaire) : un objet physique individuel dans une collection
- Google Books renvoie surtout des données au niveau de l’« expression » ou de la « manifestation », alors que les utilisateurs ont besoin d’une unité abstraite au niveau de l’« œuvre »
- OpenLibrary propose une structure centrée sur l’« œuvre », mais comporte encore des entrées dupliquées
- Exemple : lors d’une recherche sur Hotel Iris de Yoko Ogawa, la même œuvre apparaît quatre fois
Qualité des données et limites de l’écosystème
- Letterboxd fonctionne à partir de The Movie Database (TMDB), qui contient environ 1 million de fiches de films
- En face, OpenLibrary recense plus de 40 millions d’œuvres, mais avec beaucoup de données incomplètes et peu nettoyées
- Les données sur le cinéma atteignent une meilleure qualité grâce à la combinaison de plateformes commerciales et de contributions communautaires, alors que les données sur les livres souffrent de leur ampleur et d’un manque de financement
- Résultat : il n’existe pas de base de données suffisamment solide pour créer un service de type Letterboxd centré sur les livres
Conclusion et pistes futures
- En l’absence d’une infrastructure open source complète de métadonnées du livre, développer une plateforme de suivi de lecture est une tâche bien plus difficile que pour le cinéma
- L’auteur compte néanmoins continuer à essayer de construire un système indépendant de suivi de lecture
- Comme pour la découverte des goûts cinématographiques, le suivi de lecture a lui aussi besoin d’une approche personnalisée
4 commentaires
Eh oui... l’ISBN est un identifiant de publication, pas un identifiant de contenu...
Le titre est vraiment trop putaclic lol
Il semble que l’emplacement de l’identifiant du contenu soit vide :(
Il est vrai aussi que le système ISBN n’a pas vraiment été conçu en tenant compte d’une classification systématique...
Même si les règles prévoient d’attribuer un numéro distinct à chaque réimpression, comme la catégorie la plus basse reste l’éditeur, la gestion n’est pas simple, malgré la nécessité d’un classement par œuvre.
Commentaires sur Hacker News
Cela fait penser à la structure de base de données de MusicBrainz
Par exemple, l’album Nevermind de Nirvana constitue un release group unique, avec différentes versions selon le support ou le pays, comme cassette, CD, LP ou exemplaire promotionnel
Dans certains cas, le numéro de catalogue ou le code-barres permet de les distinguer, mais dans d’autres, un même code correspond malgré tout à des versions différentes
Même pour un même enregistrement, il peut y avoir des différences dues au remastering, au montage ou à la censure
MusicBrainz suit ces écarts avec précision et distingue clairement ce qui est ou non le même enregistrement
Lorsqu’il s’agit de reprises ou de standards enregistrés par plusieurs artistes, les informations sur le compositeur et le parolier sont reliées au niveau de la « work »
Ce type de conception sophistiquée de base de données relationnelle semble très utile pour consigner à la fois l’identité et les différences des œuvres créatives
Lien connexe
bookbrainz.org/about
Si le schéma est similaire à celui de MusicBrainz, l’extraction des données devrait être très facile
J’ai créé un compte, téléversé moi-même les données, puis réussi l’enregistrement après plusieurs corrections
J’ai trouvé et utilisé comme référence les informations du même CD, édition australienne, sur un site chinois, ce qui m’a fait comprendre qu’il existe selon les marchés des versions subtilement différentes
Je comprends donc profondément l’équipe de MusicBrainz lorsqu’elle dit que les gens sont bien trop laxistes pour mettre à jour les « identifiants uniques »
Les éditions de 1987 et de 1989 (version sans « Peace Train ») avaient le même numéro UPC
Je me souviens m’être donné du mal dans des magasins de CD d’occasion au milieu des années 1990 pour trouver la version antérieure au retrait
Pour le reste, c’était confus car il existait plusieurs versions selon les régions, avec un nombre de pistes différent
S’il y avait eu une fonction permettant d’indiquer les informations d’artiste pour chaque piste, la précision de la recherche aurait probablement été meilleure
Même lorsqu’il ne s’agit que de corriger des coquilles, il est difficile de les distinguer
Wikidata est une base de données publique compatible FRBR, et la qualité des données sur les livres s’est fortement améliorée ces dernières années
Dans l’exemple donné, Hôtel Iris de Yōko Ogawa ne correspond pas à une même œuvre, mais à des traductions différentes
Une traduction devrait être considérée comme une œuvre dérivée distincte de l’original
Cela dit, les listes sont mélangées et contiennent beaucoup d’erreurs
Dans OpenLibrary, tout est regroupé sous une seule work, et la langue ainsi que les informations sur le traducteur sont stockées dans l’édition
Les doublons actuels semblent venir d’un problème apparu lors du processus de fusion automatique par langue
L’idéal est de permettre à l’utilisateur d’explorer ensemble l’original et les traductions
Recommande LibraryThing
Cela semble bien meilleur que Goodreads
Il est important de distinguer la structure WEMI (work, expression, manifestation, item) d’un livre
Dire « j’ai lu Don Quichotte » relève du niveau work, tandis que dire « mon exemplaire a une tache de café » relève du niveau item
Lors d’un concours de lecture à l’échelle d’un État, les livres étaient gérés uniquement par ISBN, ce qui rendait leur recherche difficile pour les élèves
Un
JOINSQL a donc été ajouté à l’aide de la base de données de correspondance ISBN de WorldCat pour relier les différents ISBN d’un même contenuRésultat, sur 10 ans, les élèves ont lu plus d’un million de livres supplémentaires
Anna’s Archive a beaucoup contribué au nettoyage des données liées aux ISBN
Le site a utilisé du scraping de WorldCat et construit actuellement aussi une base de données ISSN (périodiques)
Les données ISSN sont dans un état bien plus pauvre que celles des livres
Rappelle qu’Open Library trouve son origine dans les premiers travaux de Brewster Kahle (fondateur d’Internet Archive) et Aaron Swartz
Blog connexe
Il est déjà arrivé d’acheter un livre après l’avoir vu en librairie, puis de rentrer chez soi et de constater qu’on possédait déjà la même édition
Si l’on avait pu rechercher sa collection via ISBN, cela aurait permis d’éviter ces achats en double
Quelqu’un a déjà créé, comme projet personnel, un site de gestion de livres utilisant l’API d’ISBNDB
Lors d’une recherche par titre, les nombreuses éditions, langues et formes de reliure se mélangeaient, rendant les résultats très complexes
Les résultats ont été organisés à l’aide de la similarité de Jaccard, mais cela restait imparfait
OpenLibrary est actuellement étudié comme alternative
L’application StoryGraph ne semble pas mauvaise
Son interface, pensée pour les utilisateurs qui veulent éviter les fonctions IA, est appréciée
La recherche est également bonne
Utilisé personnellement depuis 2017, avec le choix assumé d’une sortie de l’oligopole
L’ISBN inclut un identifiant d’éditeur, si bien qu’un même livre peut avoir des ISBN différents selon le marché
C’est un service gratuit, donc cela peut varier selon les pays
Le nom de l’éditeur n’y figure donc pas directement, mais la structure permet de l’identifier