1 points par GN⁺ 9 일 전 | 1 commentaires | Partager sur WhatsApp
  • Édition numérique de la 11e édition de l’Encyclopædia Britannica (1910–1911), avec recherche intégrale, renvois croisés et annotations
  • La navigation supérieure propose les catégories Articles, Contributors, Topics, Ancillary
  • Le titre affiche Encyclopædia Britannica et Eleventh Edition · 1910–1911
  • La phrase de présentation indique directement Fully searchable, cross-referenced, and annotated
  • Aucun texte descriptif supplémentaire, exemple ou présentation détaillée des fonctionnalités n’est fourni

Aperçu

  • Édition numérique de la 11e édition de l’Encyclopædia Britannica (1910–1911), offrant recherche intégrale, renvois croisés et annotations
  • La navigation supérieure propose les catégories Articles, Contributors, Topics, Ancillary
  • Le titre affiche Encyclopædia Britannica et Eleventh Edition · 1910–1911
  • La phrase de présentation affiche directement Fully searchable, cross-referenced, and annotated
  • Aucun texte descriptif supplémentaire, exemple ou explication détaillée des fonctionnalités n’est fourni

Informations fournies

  • Les caractéristiques clés de cette édition numérique permettent de constater directement la recherche, les renvois croisés et l’ajout d’annotations
  • Aucun développement étendu correspondant au corps des articles ni présentation détaillée de chaque rubrique n’est inclus
  • Les métadonnées relevant des informations sur les auteurs, la publication ou les références sont exclues du résumé

1 commentaires

 
GN⁺ 9 일 전
Commentaires sur Hacker News
  • J’ai recréé la Encyclopædia Britannica de 1911 sous la forme d’un site de consultation proprement structuré. Visible sur https://britannica11.org/
    J’ai restauré environ 37�00 articles selon les volumes d’origine, avec table des matières cliquable par section, liens de renvoi, recherche par contributeur, indication du volume et de la page d’origine, lien vers le scan source de chaque page, documents annexes, index thématique et recherche plein texte avec métadonnées incluses
    Le gros du travail a porté sur le pipeline de restauration : hiérarchie des titres, articles étalés sur plusieurs pages, tableaux, formules, multilingue, notes de bas de page, planches, etc.
    Le but était de conserver l’esprit de l’original tout en en faisant quelque chose de vraiment utilisable
    Je serais particulièrement preneur de retours sur la qualité de la recherche, la navigation entre sections et renvois, et les endroits où la structure paraît étrange
    Les questions sur le pipeline ou le modèle de données sont aussi bienvenues

    • Je pense qu’un bon complément aux annexes serait d’ajouter The Reader's Guide to the Encyclopaedia Britannica. Le texte dans le domaine public est disponible sur https://www.gutenberg.org/ebooks/74039, et le scan sur https://archive.org/details/readersguidetoen00londuoft
    • C’est vraiment très bien fait. Comme suggestion, ce serait bien si le pipeline pouvait aussi générer des EPUB. Comme ça, même si le site disparaît, on pourrait encore chercher et lire hors ligne, et grâce à la compression EPUB, la taille du fichier de l’encyclopédie complète ne serait peut-être pas si énorme
    • J’ai l’impression qu’il y a un problème d’échappement dans la table des matières. Par exemple, dans l’article United States, l’affichage de Roosevelt's semble cassé. https://britannica11.org/article/27-0635-united-states-the/united_states__the
    • C’était suffisamment bien pour que je me perde un bon moment à parcourir quelques sujets
      En revanche, une fois dans un article, la barre de recherche en haut, "Search titles and full text...", ne fonctionnait pas pour passer à un autre sujet
      Et quand je suis arrivé pour la première fois, j’étais un peu perdu sur le point de départ ; je n’ai pas tout de suite compris qu’il fallait cliquer sur "Articles" ou "Topics" pour commencer à explorer. Je crois que je m’attendais à ce que l’image principale serve elle-même de porte d’entrée
    • J’aimerais encore plus s’il y avait des liens internes à la Wikipedia reliant les sujets mentionnés dans un article à d’autres articles
  • Je trouve ce projet vraiment superbe. Ça fait longtemps que je pense à faire quelque chose de semblable à plus petite échelle
    S’il y a plusieurs raisons pour lesquelles la Britannica de 1911 est si célèbre, la plus connue est sans doute que c’est la dernière encyclopédie d’avant la Première Guerre mondiale
    On y sent donc encore l’optimisme nourri par les première et deuxième révolutions industrielles et la Progressive Era, sans être encore imprégné du choc de la « guerre pour mettre fin à toutes les guerres »
    J’ai essayé directement https://britannica11.org en cherchant au hasard Portuguese East Africa, et je l’ai trouvé immédiatement ; le résultat était https://britannica11.org/article/22-0177-portuguese-east-africa/portuguese_east_africa
    Comme demande polie, j’aimerais beaucoup une vue côte à côte avec le texte et l’image de la page d’origine
    On pourrait alors vérifier directement la fidélité de l’OCR tout en profitant de la beauté de l’impression, sans devoir ouvrir une nouvelle fenêtre pour chaque page
    Personnellement, j’utiliserais volontiers le site comme point d’entrée, puis je lirais surtout sur l’image en basculant vers le texte pour vérifier ou copier
    Je savais déjà qu’il y avait les images d’origine, mais elles n’étaient pas assez visibles : il m’a fallu trois visites pour remarquer le lien latéral. Une solution intermédiaire comme des miniatures optionnelles pourrait aussi marcher
    Et surtout, c’est rapide

  • En regardant un article comme "Adolescence", on tombe sur des croyances qui aujourd’hui peuvent sembler assez choquantes
    Par exemple, on y lit qu’à l’approche de la puberté, il faudrait réduire l’exercice physique et la charge de formation intellectuelle des jeunes filles, et leur imposer du repos

    • Oui, tout à fait. C’est aussi l’une des raisons pour lesquelles je trouve l’édition de 1911 si intéressante : les auteurs pouvaient exprimer plus directement leurs opinions, et ces opinions reflètent naturellement les idées communes de leur époque
    • Je pense qu’il y a aussi un effet de choc lié au fait que ce soit formulé noir sur blanc
      En pratique, beaucoup de gens vivent encore d’une manière assez proche, et le mouvement féministe lui-même, après avoir longtemps poussé fortement dans l’autre sens, a aussi fini par remettre davantage en avant la liberté de choisir de ne pas entrer sur le marché du travail
      L’attrait pour la "soft life" traverse les époques ; et je pense que si les hommes avaient eux aussi largement accès à une option culturelle consistant à être entretenus économiquement par quelqu’un d’autre, une part non négligeable d’entre eux choisirait également des rôles progressifs avec moins de charge intellectuelle
      Dans cette perspective, certains déséquilibres de représentation dans d’autres domaines pourraient se réduire non pas en forçant les femmes à y entrer, mais par retrait volontaire des hommes
    • Désormais, dès qu’un texte du domaine public est disponible, on peut le donner à peu près à n’importe quel LLM de pointe comme Kimi ou GLM et obtenir un assez bon résumé en langue moderne
      Le fait que les LLM réorganisent ces paragraphes massifs typiques des textes historiques avec une mise en forme parfois excessive est, contre toute attente, assez utile
      Et si on ajoute une invite du type « comment ce texte serait-il reçu aujourd’hui ? », ils pointent aussi de façon assez détaillée les passages qui seraient jugés inappropriés ou difficiles à accepter selon les standards actuels
  • Je me demandais quelle était la structure interne des informations. J’ai appris récemment qu’en humanités numériques, on utilise souvent des balisages sémantiques comme le XML-TEI pour ce genre de travail
    En voyant des données du dictionnaire latin-anglais Lewis & Short encodées en XML-TEI, j’ai appris BaseX et XQuery, et je me suis amusé à poser des questions comme « quel auteur classique a utilisé un mot apparaissant une seule fois dans tout le corpus ? » ou « quel est le plus long hapax ? »
    C’était aussi formidable que Tufts University publie ce genre de données
    Je trouverais très amusant de pouvoir charger la Britannica de 1911 dans BaseX et l’explorer avec XQuery

    • En interne, ce n’est pas basé sur du XML-TEI mais sur des données relationnelles et un pipeline. Les limites des articles, sections, contributeurs, renvois et références de pages source ont été restaurées sous forme d’enregistrements structurés
      Le texte lui-même est dans le domaine public, mais je n’ai pas encore publié d’export structuré en masse
      Cela dit, comme il y a eu beaucoup de demandes d’accès au jeu de données dans ce fil aussi, je l’envisage sérieusement ; et si je le publie, je voudrais que ce soit dans un format qui préserve la structure, pas juste un dump en texte brut
  • Ce qui m’a frappé, c’est à quel point le style et la structure diffèrent des textes modernes
    Par exemple, dans l’entrée Copenhagen https://britannica11.org/article/07-0111-copenhagen/copenhagen, la géographie et les principaux points d’intérêt sont décrits avec précision, mais les auteurs n’hésitent pas à glisser des adjectifs affectifs et des opinions personnelles sur ce qu’ils trouvent intéressant ou étrange
    Et plus bas, le passage sur la Battle of Copenhagen donne l’impression de changer carrément de genre, passant soudain d’une description géographique à un récit scène par scène de bataille navale

    • Oui, tout à fait. C’est l’un des aspects que je préfère dans cette édition. Les articles ont un ton plus personnel et moins uniformisé
      On y trouve mélangés géographie, histoire et parfois des opinions assez marquées, et je trouve justement que cela rend la lecture plus agréable
      J’en parle aussi dans ma page de présentation : https://britannica11.org/about.html
    • En ouvrant l’article sur Victor Hugo, j’ai tout de suite vu une phrase qui trahissait clairement un auteur admirateur
      Par exemple quand Les Misérables est présenté comme « le plus grand roman épique et dramatique jamais créé ou conçu »
  • Je me demande depuis longtemps s’il serait possible d’obtenir une encyclopédie relativement récente comme Encarta ou Britannica version 2021
    J’y vois une sorte de dernière source d’information relativement peu contaminée par l’IA, sur cette frontière un peu floue entre l’avant-LLM et l’après-Covid
    Quand j’étais enfant, l’un de mes biens les plus précieux était une encyclopédie sur CD-ROM, et à l’époque où Internet n’était pas encore courant, j’adorais passer les après-midi pluvieux à ouvrir mes entrées préférées, lire et apprendre

  • Si on aime la Encyclopedia Britannica de 1911, https://OldEncyc.com peut aussi être amusant à parcourir
    On y trouve 22 éditions d’anciennes encyclopédies, de 1728 à 1926, consultables par volume et par plage alphabétique. Ce n’est pas orienté recherche comme le site de l’OP, mais l’éventail documentaire est large

    • Je ne connaissais pas ce site, mais je le trouve excellent. J’aime particulièrement le fait qu’il couvre largement plusieurs éditions
  • Signalement d’un bug vraiment mineur : la police actuellement choisie ne prend pas en charge le caractère ℔, donc des articles comme https://britannica11.org/article/22-0688-s2/putting_the_shot s’affichent bizarrement
    Ça pourrait aussi valoir le coup d’envisager une normalisation vers lb, notation plus familière aujourd’hui

    • Bonne remarque. C’est un problème de couverture des glyphes, donc je pense ajouter une police de secours pour les caractères manquants, ou normaliser ces cas
      Ça peut sembler anecdotique, mais ce projet est plein de ce genre de détails
  • Le monde est petit. Je suis justement en train de nettoyer des scans de la 9e édition de l’EB pour les mettre sur un site MediaWiki, et comme j’inclus aussi les illustrations et planches, je n’en suis encore qu’à environ un tiers
    J’ai testé plusieurs outils d’OCR, et pour l’instant paddleOCR est celui qui m’a le plus impressionné. Il sépare bien les colonnes de texte, repère les étiquettes des illustrations et reconnaît même assez bien le texte dans les marges
    Bien sûr, ce n’est pas parfait, donc je corrige encore certains tableaux à la main, et je prévois aussi de mettre en ligne les pages sources pour pouvoir passer facilement entre le scan original et le texte électronique

    • À noter que la 9e édition de 1875, à laquelle ont contribué de nombreuses figures de premier plan, était connue comme la scholar's edition, et donne un instantané fascinant de la fin du XIXe siècle
      Une mise en ligne de ce type, enrichie de liens hypertextes et d’index, serait aussi intéressante pour des atlas géographiques, des atlas médicaux ou des guides de voyage Baedeker
    • Ça donne envie. La 9e édition est excellente en soi, et une grande partie de son contenu se prolonge dans la 11e
      Je pense tout de suite aux immenses articles d’Alfred Newton sur les oiseaux, ou à quelques essais classiques de Macaulay
  • Certains passages ont aujourd’hui un côté assez drôle et étrange
    Par exemple, dans l’article stars https://britannica11.org/article/25-0806-star/star#section-10, on explique que si les étoiles étaient réparties uniformément à l’infini dans l’espace et qu’il n’y avait pas d’absorption de la lumière, le fond du ciel devrait être éblouissant

    • J’ai cherché "computer" : il n’y a évidemment pas d’ordinateur au sens moderne, et je n’ai trouvé que Chauncey Wright, qui travaillait comme computer au sens de métier pour l’American Ephemeris and Nautical Almanac
      Le résultat était https://britannica11.org/article/28-0872-wright-chauncey/wright__chauncey?q=computer&match=1, et ça rappelle à quel point l’époque était différente
    • L’article Sun était aussi assez intéressant. Ils ne connaissaient pas encore la fusion nucléaire, mais avaient déjà écarté la plupart des théories comme la combustion chimique ou la contraction gravitationnelle pour expliquer une production d’énergie aussi énorme
      À la place, ils jugeaient plus plausible une certaine réorganisation de la structure atomique des éléments, et expliquaient que de l’énergie était libérée au cours du processus par lequel la nébuleuse se condensait en Soleil et la matière se développait vers les éléments connus
      Compte tenu des connaissances de l’époque, c’était une estimation étonnamment proche
    • Ce passage renvoie à ce qu’on appelle le paradoxe d'Olbers