Britannica11.org - Édition structurée de l’Encyclopædia Britannica de 1911

(britannica11.org)

1 points par GN⁺ 9 일 전 | 1 commentaires | Partager sur WhatsApp

Édition numérique de la 11e édition de l’Encyclopædia Britannica (1910–1911), avec recherche intégrale, renvois croisés et annotations
La navigation supérieure propose les catégories Articles, Contributors, Topics, Ancillary
Le titre affiche Encyclopædia Britannica et Eleventh Edition · 1910–1911
La phrase de présentation indique directement Fully searchable, cross-referenced, and annotated
Aucun texte descriptif supplémentaire, exemple ou présentation détaillée des fonctionnalités n’est fourni

Aperçu

Édition numérique de la 11e édition de l’Encyclopædia Britannica (1910–1911), offrant recherche intégrale, renvois croisés et annotations
La navigation supérieure propose les catégories Articles, Contributors, Topics, Ancillary
Le titre affiche Encyclopædia Britannica et Eleventh Edition · 1910–1911
La phrase de présentation affiche directement Fully searchable, cross-referenced, and annotated
Aucun texte descriptif supplémentaire, exemple ou explication détaillée des fonctionnalités n’est fourni

Informations fournies

Les caractéristiques clés de cette édition numérique permettent de constater directement la recherche, les renvois croisés et l’ajout d’annotations
Aucun développement étendu correspondant au corps des articles ni présentation détaillée de chaque rubrique n’est inclus
Les métadonnées relevant des informations sur les auteurs, la publication ou les références sont exclues du résumé

1 commentaires

GN⁺ 9 일 전

Commentaires sur Hacker News

J’ai recréé la Encyclopædia Britannica de 1911 sous la forme d’un site de consultation proprement structuré. Visible sur https://britannica11.org/
J’ai restauré environ 37�00 articles selon les volumes d’origine, avec table des matières cliquable par section, liens de renvoi, recherche par contributeur, indication du volume et de la page d’origine, lien vers le scan source de chaque page, documents annexes, index thématique et recherche plein texte avec métadonnées incluses
Le gros du travail a porté sur le pipeline de restauration : hiérarchie des titres, articles étalés sur plusieurs pages, tableaux, formules, multilingue, notes de bas de page, planches, etc.
Le but était de conserver l’esprit de l’original tout en en faisant quelque chose de vraiment utilisable
Je serais particulièrement preneur de retours sur la qualité de la recherche, la navigation entre sections et renvois, et les endroits où la structure paraît étrange
Les questions sur le pipeline ou le modèle de données sont aussi bienvenues
- Je pense qu’un bon complément aux annexes serait d’ajouter The Reader's Guide to the Encyclopaedia Britannica. Le texte dans le domaine public est disponible sur https://www.gutenberg.org/ebooks/74039, et le scan sur https://archive.org/details/readersguidetoen00londuoft
- C’est vraiment très bien fait. Comme suggestion, ce serait bien si le pipeline pouvait aussi générer des EPUB. Comme ça, même si le site disparaît, on pourrait encore chercher et lire hors ligne, et grâce à la compression EPUB, la taille du fichier de l’encyclopédie complète ne serait peut-être pas si énorme
- J’ai l’impression qu’il y a un problème d’échappement dans la table des matières. Par exemple, dans l’article United States, l’affichage de Roosevelt's semble cassé. https://britannica11.org/article/27-0635-united-states-the/united_states__the
- C’était suffisamment bien pour que je me perde un bon moment à parcourir quelques sujets
  En revanche, une fois dans un article, la barre de recherche en haut, "Search titles and full text...", ne fonctionnait pas pour passer à un autre sujet
  Et quand je suis arrivé pour la première fois, j’étais un peu perdu sur le point de départ ; je n’ai pas tout de suite compris qu’il fallait cliquer sur "Articles" ou "Topics" pour commencer à explorer. Je crois que je m’attendais à ce que l’image principale serve elle-même de porte d’entrée
- J’aimerais encore plus s’il y avait des liens internes à la Wikipedia reliant les sujets mentionnés dans un article à d’autres articles
Je trouve ce projet vraiment superbe. Ça fait longtemps que je pense à faire quelque chose de semblable à plus petite échelle
S’il y a plusieurs raisons pour lesquelles la Britannica de 1911 est si célèbre, la plus connue est sans doute que c’est la dernière encyclopédie d’avant la Première Guerre mondiale
On y sent donc encore l’optimisme nourri par les première et deuxième révolutions industrielles et la Progressive Era, sans être encore imprégné du choc de la « guerre pour mettre fin à toutes les guerres »
J’ai essayé directement https://britannica11.org en cherchant au hasard Portuguese East Africa, et je l’ai trouvé immédiatement ; le résultat était https://britannica11.org/article/22-0177-portuguese-east-africa/portuguese_east_africa
Comme demande polie, j’aimerais beaucoup une vue côte à côte avec le texte et l’image de la page d’origine
On pourrait alors vérifier directement la fidélité de l’OCR tout en profitant de la beauté de l’impression, sans devoir ouvrir une nouvelle fenêtre pour chaque page
Personnellement, j’utiliserais volontiers le site comme point d’entrée, puis je lirais surtout sur l’image en basculant vers le texte pour vérifier ou copier
Je savais déjà qu’il y avait les images d’origine, mais elles n’étaient pas assez visibles : il m’a fallu trois visites pour remarquer le lien latéral. Une solution intermédiaire comme des miniatures optionnelles pourrait aussi marcher
Et surtout, c’est rapide
- Cette vérification parallèle texte/image existe déjà sur Wikisource. Par exemple, la p. 658 de l’entrée "Molecule" est visible sur https://en.wikisource.org/wiki/Page:EB1911_-_Volume_18.djvu/688
  Et dans la version de l’OP, j’ai aussi repéré quelques problèmes de fidélité. Sur https://britannica11.org/article/18-0684-s2/molecule, une partie d’une formule manque sous "the molecules of other kinds" ; on peut le vérifier en comparant [1] https://britannica11.org/article/18-0684-s2/molecule#:~:text=the%20molecules%20of%20other%20kinds et [2] https://en.wikisource.org/wiki/Page:EB1911_-_Volume_18.djvu/688
  De plus, la note 1 est rattachée dans la version de l’OP à "as they have always done", alors qu’en réalité elle devrait être rattachée à "Atom" p. 654. Comparaison possible via [3] https://britannica11.org/article/18-0684-s2/molecule#:~:text=as%20they%20have%20always%20done et [4] https://en.wikisource.org/wiki/Page:EB1911_-_Volume_18.djvu/684#cite_note-654f1-1
- Ravi d’entendre que ça a bien fonctionné même sur un article pris au hasard
  Pour les raisons que tu cites, moi aussi je pense depuis longtemps qu’une vue texte/page côte à côte serait bien, mais je ne l’ai pas encore réalisée
  Le retour disant que le lien vers les scans n’est pas assez visible m’est aussi utile, et ça me fait penser qu’il faut l’afficher plus clairement
  À noter que cliquer sur le lien vol:page dans la marge de gauche mène directement au scan de la page que tu lis
En regardant un article comme "Adolescence", on tombe sur des croyances qui aujourd’hui peuvent sembler assez choquantes
Par exemple, on y lit qu’à l’approche de la puberté, il faudrait réduire l’exercice physique et la charge de formation intellectuelle des jeunes filles, et leur imposer du repos
- Oui, tout à fait. C’est aussi l’une des raisons pour lesquelles je trouve l’édition de 1911 si intéressante : les auteurs pouvaient exprimer plus directement leurs opinions, et ces opinions reflètent naturellement les idées communes de leur époque
- Je pense qu’il y a aussi un effet de choc lié au fait que ce soit formulé noir sur blanc
  En pratique, beaucoup de gens vivent encore d’une manière assez proche, et le mouvement féministe lui-même, après avoir longtemps poussé fortement dans l’autre sens, a aussi fini par remettre davantage en avant la liberté de choisir de ne pas entrer sur le marché du travail
  L’attrait pour la "soft life" traverse les époques ; et je pense que si les hommes avaient eux aussi largement accès à une option culturelle consistant à être entretenus économiquement par quelqu’un d’autre, une part non négligeable d’entre eux choisirait également des rôles progressifs avec moins de charge intellectuelle
  Dans cette perspective, certains déséquilibres de représentation dans d’autres domaines pourraient se réduire non pas en forçant les femmes à y entrer, mais par retrait volontaire des hommes
- Désormais, dès qu’un texte du domaine public est disponible, on peut le donner à peu près à n’importe quel LLM de pointe comme Kimi ou GLM et obtenir un assez bon résumé en langue moderne
  Le fait que les LLM réorganisent ces paragraphes massifs typiques des textes historiques avec une mise en forme parfois excessive est, contre toute attente, assez utile
  Et si on ajoute une invite du type « comment ce texte serait-il reçu aujourd’hui ? », ils pointent aussi de façon assez détaillée les passages qui seraient jugés inappropriés ou difficiles à accepter selon les standards actuels
Je me demandais quelle était la structure interne des informations. J’ai appris récemment qu’en humanités numériques, on utilise souvent des balisages sémantiques comme le XML-TEI pour ce genre de travail
En voyant des données du dictionnaire latin-anglais Lewis & Short encodées en XML-TEI, j’ai appris BaseX et XQuery, et je me suis amusé à poser des questions comme « quel auteur classique a utilisé un mot apparaissant une seule fois dans tout le corpus ? » ou « quel est le plus long hapax ? »
C’était aussi formidable que Tufts University publie ce genre de données
Je trouverais très amusant de pouvoir charger la Britannica de 1911 dans BaseX et l’explorer avec XQuery
- En interne, ce n’est pas basé sur du XML-TEI mais sur des données relationnelles et un pipeline. Les limites des articles, sections, contributeurs, renvois et références de pages source ont été restaurées sous forme d’enregistrements structurés
  Le texte lui-même est dans le domaine public, mais je n’ai pas encore publié d’export structuré en masse
  Cela dit, comme il y a eu beaucoup de demandes d’accès au jeu de données dans ce fil aussi, je l’envisage sérieusement ; et si je le publie, je voudrais que ce soit dans un format qui préserve la structure, pas juste un dump en texte brut
Ce qui m’a frappé, c’est à quel point le style et la structure diffèrent des textes modernes
Par exemple, dans l’entrée Copenhagen https://britannica11.org/article/07-0111-copenhagen/copenhagen, la géographie et les principaux points d’intérêt sont décrits avec précision, mais les auteurs n’hésitent pas à glisser des adjectifs affectifs et des opinions personnelles sur ce qu’ils trouvent intéressant ou étrange
Et plus bas, le passage sur la Battle of Copenhagen donne l’impression de changer carrément de genre, passant soudain d’une description géographique à un récit scène par scène de bataille navale
- Oui, tout à fait. C’est l’un des aspects que je préfère dans cette édition. Les articles ont un ton plus personnel et moins uniformisé
  On y trouve mélangés géographie, histoire et parfois des opinions assez marquées, et je trouve justement que cela rend la lecture plus agréable
  J’en parle aussi dans ma page de présentation : https://britannica11.org/about.html
- En ouvrant l’article sur Victor Hugo, j’ai tout de suite vu une phrase qui trahissait clairement un auteur admirateur
  Par exemple quand Les Misérables est présenté comme « le plus grand roman épique et dramatique jamais créé ou conçu »
Je me demande depuis longtemps s’il serait possible d’obtenir une encyclopédie relativement récente comme Encarta ou Britannica version 2021
J’y vois une sorte de dernière source d’information relativement peu contaminée par l’IA, sur cette frontière un peu floue entre l’avant-LLM et l’après-Covid
Quand j’étais enfant, l’un de mes biens les plus précieux était une encyclopédie sur CD-ROM, et à l’époque où Internet n’était pas encore courant, j’adorais passer les après-midi pluvieux à ouvrir mes entrées préférées, lire et apprendre
- On trouve des éditions DVD de Britannica sur archive.org. La version 2004 est sur https://archive.org/details/britannica-2004, celle de 2009 sur https://archive.org/details/britannica-multimedia-dvd-2009-disc, celle de 2012 sur https://archive.org/details/britannica-dvd_20230709, et celle de 2013 sur https://archive.org/details/encyclopedia-britannica-dvd-2013
- Je vois exactement ce que tu veux dire. J’ai eu la même expérience avec les encyclopédies sur CD-ROM, et le plaisir de se laisser porter d’article en article est difficile à remplacer
  L’une des motivations de ce projet était justement de retrouver ce sentiment d’exploration à partir du texte original et de la structure de 1911
- La dernière version commercialisée d’Encarta date de 2009
Si on aime la Encyclopedia Britannica de 1911, https://OldEncyc.com peut aussi être amusant à parcourir
On y trouve 22 éditions d’anciennes encyclopédies, de 1728 à 1926, consultables par volume et par plage alphabétique. Ce n’est pas orienté recherche comme le site de l’OP, mais l’éventail documentaire est large
- Je ne connaissais pas ce site, mais je le trouve excellent. J’aime particulièrement le fait qu’il couvre largement plusieurs éditions
Signalement d’un bug vraiment mineur : la police actuellement choisie ne prend pas en charge le caractère ℔, donc des articles comme https://britannica11.org/article/22-0688-s2/putting_the_shot s’affichent bizarrement
Ça pourrait aussi valoir le coup d’envisager une normalisation vers lb, notation plus familière aujourd’hui
- Bonne remarque. C’est un problème de couverture des glyphes, donc je pense ajouter une police de secours pour les caractères manquants, ou normaliser ces cas
  Ça peut sembler anecdotique, mais ce projet est plein de ce genre de détails
Le monde est petit. Je suis justement en train de nettoyer des scans de la 9e édition de l’EB pour les mettre sur un site MediaWiki, et comme j’inclus aussi les illustrations et planches, je n’en suis encore qu’à environ un tiers
J’ai testé plusieurs outils d’OCR, et pour l’instant paddleOCR est celui qui m’a le plus impressionné. Il sépare bien les colonnes de texte, repère les étiquettes des illustrations et reconnaît même assez bien le texte dans les marges
Bien sûr, ce n’est pas parfait, donc je corrige encore certains tableaux à la main, et je prévois aussi de mettre en ligne les pages sources pour pouvoir passer facilement entre le scan original et le texte électronique
- À noter que la 9e édition de 1875, à laquelle ont contribué de nombreuses figures de premier plan, était connue comme la scholar's edition, et donne un instantané fascinant de la fin du XIXe siècle
  Une mise en ligne de ce type, enrichie de liens hypertextes et d’index, serait aussi intéressante pour des atlas géographiques, des atlas médicaux ou des guides de voyage Baedeker
- Ça donne envie. La 9e édition est excellente en soi, et une grande partie de son contenu se prolonge dans la 11e
  Je pense tout de suite aux immenses articles d’Alfred Newton sur les oiseaux, ou à quelques essais classiques de Macaulay
Certains passages ont aujourd’hui un côté assez drôle et étrange
Par exemple, dans l’article stars https://britannica11.org/article/25-0806-star/star#section-10, on explique que si les étoiles étaient réparties uniformément à l’infini dans l’espace et qu’il n’y avait pas d’absorption de la lumière, le fond du ciel devrait être éblouissant
- J’ai cherché "computer" : il n’y a évidemment pas d’ordinateur au sens moderne, et je n’ai trouvé que Chauncey Wright, qui travaillait comme computer au sens de métier pour l’American Ephemeris and Nautical Almanac
  Le résultat était https://britannica11.org/article/28-0872-wright-chauncey/wright__chauncey?q=computer&match=1, et ça rappelle à quel point l’époque était différente
- L’article Sun était aussi assez intéressant. Ils ne connaissaient pas encore la fusion nucléaire, mais avaient déjà écarté la plupart des théories comme la combustion chimique ou la contraction gravitationnelle pour expliquer une production d’énergie aussi énorme
  À la place, ils jugeaient plus plausible une certaine réorganisation de la structure atomique des éléments, et expliquaient que de l’énergie était libérée au cours du processus par lequel la nébuleuse se condensait en Soleil et la matière se développait vers les éléments connus
  Compte tenu des connaissances de l’époque, c’était une estimation étonnamment proche
- Ce passage renvoie à ce qu’on appelle le paradoxe d'Olbers

Britannica11.org - Édition structurée de l’Encyclopædia Britannica de 1911

Aperçu

Informations fournies

À lire aussi

1 commentaires

Commentaires sur Hacker News