Britannica11.org - Édition structurée de l’Encyclopædia Britannica de 1911
(britannica11.org)- Édition numérique de la 11e édition de l’Encyclopædia Britannica (1910–1911), avec recherche intégrale, renvois croisés et annotations
- La navigation supérieure propose les catégories Articles, Contributors, Topics, Ancillary
- Le titre affiche Encyclopædia Britannica et Eleventh Edition · 1910–1911
- La phrase de présentation indique directement Fully searchable, cross-referenced, and annotated
- Aucun texte descriptif supplémentaire, exemple ou présentation détaillée des fonctionnalités n’est fourni
Aperçu
- Édition numérique de la 11e édition de l’Encyclopædia Britannica (1910–1911), offrant recherche intégrale, renvois croisés et annotations
- La navigation supérieure propose les catégories Articles, Contributors, Topics, Ancillary
- Le titre affiche Encyclopædia Britannica et Eleventh Edition · 1910–1911
- La phrase de présentation affiche directement Fully searchable, cross-referenced, and annotated
- Aucun texte descriptif supplémentaire, exemple ou explication détaillée des fonctionnalités n’est fourni
Informations fournies
- Les caractéristiques clés de cette édition numérique permettent de constater directement la recherche, les renvois croisés et l’ajout d’annotations
- Aucun développement étendu correspondant au corps des articles ni présentation détaillée de chaque rubrique n’est inclus
- Les métadonnées relevant des informations sur les auteurs, la publication ou les références sont exclues du résumé
1 commentaires
Commentaires sur Hacker News
J’ai recréé la Encyclopædia Britannica de 1911 sous la forme d’un site de consultation proprement structuré. Visible sur https://britannica11.org/
J’ai restauré environ 37�00 articles selon les volumes d’origine, avec table des matières cliquable par section, liens de renvoi, recherche par contributeur, indication du volume et de la page d’origine, lien vers le scan source de chaque page, documents annexes, index thématique et recherche plein texte avec métadonnées incluses
Le gros du travail a porté sur le pipeline de restauration : hiérarchie des titres, articles étalés sur plusieurs pages, tableaux, formules, multilingue, notes de bas de page, planches, etc.
Le but était de conserver l’esprit de l’original tout en en faisant quelque chose de vraiment utilisable
Je serais particulièrement preneur de retours sur la qualité de la recherche, la navigation entre sections et renvois, et les endroits où la structure paraît étrange
Les questions sur le pipeline ou le modèle de données sont aussi bienvenues
En revanche, une fois dans un article, la barre de recherche en haut, "Search titles and full text...", ne fonctionnait pas pour passer à un autre sujet
Et quand je suis arrivé pour la première fois, j’étais un peu perdu sur le point de départ ; je n’ai pas tout de suite compris qu’il fallait cliquer sur "Articles" ou "Topics" pour commencer à explorer. Je crois que je m’attendais à ce que l’image principale serve elle-même de porte d’entrée
Je trouve ce projet vraiment superbe. Ça fait longtemps que je pense à faire quelque chose de semblable à plus petite échelle
S’il y a plusieurs raisons pour lesquelles la Britannica de 1911 est si célèbre, la plus connue est sans doute que c’est la dernière encyclopédie d’avant la Première Guerre mondiale
On y sent donc encore l’optimisme nourri par les première et deuxième révolutions industrielles et la Progressive Era, sans être encore imprégné du choc de la « guerre pour mettre fin à toutes les guerres »
J’ai essayé directement https://britannica11.org en cherchant au hasard Portuguese East Africa, et je l’ai trouvé immédiatement ; le résultat était https://britannica11.org/article/22-0177-portuguese-east-africa/portuguese_east_africa
Comme demande polie, j’aimerais beaucoup une vue côte à côte avec le texte et l’image de la page d’origine
On pourrait alors vérifier directement la fidélité de l’OCR tout en profitant de la beauté de l’impression, sans devoir ouvrir une nouvelle fenêtre pour chaque page
Personnellement, j’utiliserais volontiers le site comme point d’entrée, puis je lirais surtout sur l’image en basculant vers le texte pour vérifier ou copier
Je savais déjà qu’il y avait les images d’origine, mais elles n’étaient pas assez visibles : il m’a fallu trois visites pour remarquer le lien latéral. Une solution intermédiaire comme des miniatures optionnelles pourrait aussi marcher
Et surtout, c’est rapide
Et dans la version de l’OP, j’ai aussi repéré quelques problèmes de fidélité. Sur https://britannica11.org/article/18-0684-s2/molecule, une partie d’une formule manque sous "the molecules of other kinds" ; on peut le vérifier en comparant [1] https://britannica11.org/article/18-0684-s2/molecule#:~:text=the%20molecules%20of%20other%20kinds et [2] https://en.wikisource.org/wiki/Page:EB1911_-_Volume_18.djvu/688
De plus, la note 1 est rattachée dans la version de l’OP à "as they have always done", alors qu’en réalité elle devrait être rattachée à "Atom" p. 654. Comparaison possible via [3] https://britannica11.org/article/18-0684-s2/molecule#:~:text=as%20they%20have%20always%20done et [4] https://en.wikisource.org/wiki/Page:EB1911_-_Volume_18.djvu/684#cite_note-654f1-1
Pour les raisons que tu cites, moi aussi je pense depuis longtemps qu’une vue texte/page côte à côte serait bien, mais je ne l’ai pas encore réalisée
Le retour disant que le lien vers les scans n’est pas assez visible m’est aussi utile, et ça me fait penser qu’il faut l’afficher plus clairement
À noter que cliquer sur le lien vol:page dans la marge de gauche mène directement au scan de la page que tu lis
En regardant un article comme "Adolescence", on tombe sur des croyances qui aujourd’hui peuvent sembler assez choquantes
Par exemple, on y lit qu’à l’approche de la puberté, il faudrait réduire l’exercice physique et la charge de formation intellectuelle des jeunes filles, et leur imposer du repos
En pratique, beaucoup de gens vivent encore d’une manière assez proche, et le mouvement féministe lui-même, après avoir longtemps poussé fortement dans l’autre sens, a aussi fini par remettre davantage en avant la liberté de choisir de ne pas entrer sur le marché du travail
L’attrait pour la "soft life" traverse les époques ; et je pense que si les hommes avaient eux aussi largement accès à une option culturelle consistant à être entretenus économiquement par quelqu’un d’autre, une part non négligeable d’entre eux choisirait également des rôles progressifs avec moins de charge intellectuelle
Dans cette perspective, certains déséquilibres de représentation dans d’autres domaines pourraient se réduire non pas en forçant les femmes à y entrer, mais par retrait volontaire des hommes
Le fait que les LLM réorganisent ces paragraphes massifs typiques des textes historiques avec une mise en forme parfois excessive est, contre toute attente, assez utile
Et si on ajoute une invite du type « comment ce texte serait-il reçu aujourd’hui ? », ils pointent aussi de façon assez détaillée les passages qui seraient jugés inappropriés ou difficiles à accepter selon les standards actuels
Je me demandais quelle était la structure interne des informations. J’ai appris récemment qu’en humanités numériques, on utilise souvent des balisages sémantiques comme le XML-TEI pour ce genre de travail
En voyant des données du dictionnaire latin-anglais Lewis & Short encodées en XML-TEI, j’ai appris BaseX et XQuery, et je me suis amusé à poser des questions comme « quel auteur classique a utilisé un mot apparaissant une seule fois dans tout le corpus ? » ou « quel est le plus long hapax ? »
C’était aussi formidable que Tufts University publie ce genre de données
Je trouverais très amusant de pouvoir charger la Britannica de 1911 dans BaseX et l’explorer avec XQuery
Le texte lui-même est dans le domaine public, mais je n’ai pas encore publié d’export structuré en masse
Cela dit, comme il y a eu beaucoup de demandes d’accès au jeu de données dans ce fil aussi, je l’envisage sérieusement ; et si je le publie, je voudrais que ce soit dans un format qui préserve la structure, pas juste un dump en texte brut
Ce qui m’a frappé, c’est à quel point le style et la structure diffèrent des textes modernes
Par exemple, dans l’entrée Copenhagen https://britannica11.org/article/07-0111-copenhagen/copenhagen, la géographie et les principaux points d’intérêt sont décrits avec précision, mais les auteurs n’hésitent pas à glisser des adjectifs affectifs et des opinions personnelles sur ce qu’ils trouvent intéressant ou étrange
Et plus bas, le passage sur la Battle of Copenhagen donne l’impression de changer carrément de genre, passant soudain d’une description géographique à un récit scène par scène de bataille navale
On y trouve mélangés géographie, histoire et parfois des opinions assez marquées, et je trouve justement que cela rend la lecture plus agréable
J’en parle aussi dans ma page de présentation : https://britannica11.org/about.html
Par exemple quand Les Misérables est présenté comme « le plus grand roman épique et dramatique jamais créé ou conçu »
Je me demande depuis longtemps s’il serait possible d’obtenir une encyclopédie relativement récente comme Encarta ou Britannica version 2021
J’y vois une sorte de dernière source d’information relativement peu contaminée par l’IA, sur cette frontière un peu floue entre l’avant-LLM et l’après-Covid
Quand j’étais enfant, l’un de mes biens les plus précieux était une encyclopédie sur CD-ROM, et à l’époque où Internet n’était pas encore courant, j’adorais passer les après-midi pluvieux à ouvrir mes entrées préférées, lire et apprendre
L’une des motivations de ce projet était justement de retrouver ce sentiment d’exploration à partir du texte original et de la structure de 1911
Si on aime la Encyclopedia Britannica de 1911, https://OldEncyc.com peut aussi être amusant à parcourir
On y trouve 22 éditions d’anciennes encyclopédies, de 1728 à 1926, consultables par volume et par plage alphabétique. Ce n’est pas orienté recherche comme le site de l’OP, mais l’éventail documentaire est large
Signalement d’un bug vraiment mineur : la police actuellement choisie ne prend pas en charge le caractère ℔, donc des articles comme https://britannica11.org/article/22-0688-s2/putting_the_shot s’affichent bizarrement
Ça pourrait aussi valoir le coup d’envisager une normalisation vers lb, notation plus familière aujourd’hui
Ça peut sembler anecdotique, mais ce projet est plein de ce genre de détails
Le monde est petit. Je suis justement en train de nettoyer des scans de la 9e édition de l’EB pour les mettre sur un site MediaWiki, et comme j’inclus aussi les illustrations et planches, je n’en suis encore qu’à environ un tiers
J’ai testé plusieurs outils d’OCR, et pour l’instant paddleOCR est celui qui m’a le plus impressionné. Il sépare bien les colonnes de texte, repère les étiquettes des illustrations et reconnaît même assez bien le texte dans les marges
Bien sûr, ce n’est pas parfait, donc je corrige encore certains tableaux à la main, et je prévois aussi de mettre en ligne les pages sources pour pouvoir passer facilement entre le scan original et le texte électronique
Une mise en ligne de ce type, enrichie de liens hypertextes et d’index, serait aussi intéressante pour des atlas géographiques, des atlas médicaux ou des guides de voyage Baedeker
Je pense tout de suite aux immenses articles d’Alfred Newton sur les oiseaux, ou à quelques essais classiques de Macaulay
Certains passages ont aujourd’hui un côté assez drôle et étrange
Par exemple, dans l’article stars https://britannica11.org/article/25-0806-star/star#section-10, on explique que si les étoiles étaient réparties uniformément à l’infini dans l’espace et qu’il n’y avait pas d’absorption de la lumière, le fond du ciel devrait être éblouissant
Le résultat était https://britannica11.org/article/28-0872-wright-chauncey/wright__chauncey?q=computer&match=1, et ça rappelle à quel point l’époque était différente
À la place, ils jugeaient plus plausible une certaine réorganisation de la structure atomique des éléments, et expliquaient que de l’énergie était libérée au cours du processus par lequel la nébuleuse se condensait en Soleil et la matière se développait vers les éléments connus
Compte tenu des connaissances de l’époque, c’était une estimation étonnamment proche