TimeCapsuleLLM : un grand modèle de langage entraîné uniquement sur des données de 1800 à 1875
(github.com/haykgrigo3)- TimeCapsuleLLM est un grand modèle de langage (LLM) entraîné uniquement sur des documents d’une période précise (1800–1875), avec pour objectif de minimiser les biais modernes et de reproduire la langue ainsi que la vision du monde de l’époque
- Le modèle utilise un jeu de données composé de documents historiques, livres, journaux et textes juridiques de la région de Londres, afin de refléter les styles linguistiques et le vocabulaire propres à la période
- Les premières versions ont été construites sur nanoGPT, et les versions ultérieures sur Microsoft Phi 1.5 ; le volume de données atteint jusqu’à 90 Go et le modèle compte jusqu’à 700M de paramètres
- Grâce à l’approche Selective Temporal Training (STT), l’entraînement sélectionne uniquement des données d’une période donnée afin d’éviter l’inclusion de concepts modernes
- Il s’agit d’un projet expérimental qui montre le potentiel de la recherche sur les modèles de langage historiques et la reconstitution, par l’IA, du langage propre à une époque
Aperçu du projet
- TimeCapsuleLLM est un modèle de langage entraîné uniquement sur des données d’une période et d’un lieu spécifiques, avec pour but de réduire les biais modernes et de reproduire le vocabulaire, le style et la vision du monde de cette époque
- Il avance l’idée d’« une IA qui ne se contente pas d’imiter des personnages historiques, mais qui utilise réellement la langue de cette époque »
- Les premières versions (v0, v0.5) ont été développées à partir de nanoGPT d’Andrej Karpathy, et la v1 à partir de Microsoft Phi 1.5
- Le modèle est publié sur Hugging Face
Caractéristiques par version du modèle
- v0
- entraînée sur environ 187 Mo de données
- utilise un vocabulaire du XIXe siècle, mais les phrases sont en grande partie mal formées
- aucun concept moderne n’apparaît
- v0.5
- améliore la grammaire et la ponctuation pour reproduire un style victorien
- le taux d’erreurs factuelles reste élevé et du bruit d’OCR (par ex. : “Digitized by Google”) est présent
- v1
- génère des réponses reliant de véritables événements et personnages historiques
- exemple : avec le prompt “It was the year of our Lord 1834”, il produit une phrase mentionnant des manifestations et des pétitions à Londres
- v2mini-eval1 / eval2
- entraînées pendant 10K steps sur un échantillon de 15 Go parmi les 90 Go
- en raison d’un problème de tokenizer, les mots étaient séparés à la sortie, mais la structure des phrases a été conservée après correction
- produit des récits de style XIXe siècle à partir de prompts comme “Charles Dickens” ou “Charles Darwin”
Composition du jeu de données
- jeu de données v2
- 90 Go de textes londoniens de 1800 à 1875, soit 136 344 documents au total
- la tokenization complète n’est pas encore terminée, mais un échantillon de 15 Go est publié sur Hugging Face
- Les données proviennent de livres du domaine public, journaux, textes juridiques, etc.
- Taille des données par version
- v0 : 187 Mo
- v0.5 : 435 Mo
- v1 : 6.25 Go
- v2mini-eval1 : 15 Go
Selective Temporal Training (STT)
- Le STT est une méthodologie d’entraînement qui n’utilise que des données d’une période historique précise
- elle exclut l’influence des concepts modernes et ne reflète que les connaissances et la langue de l’époque concernée
- TimeCapsuleLLM v0.5 a été entraîné from scratch uniquement sur des données de 1800 à 1875
- Au lieu de recourir au fine-tuning d’un modèle existant, le projet repart entièrement de zéro afin d’éliminer toute persistance d’informations modernes
Taille du modèle et environnement d’entraînement
- Nombre de paramètres du modèle
- v0 : 16M
- v0.5 : 123M
- v1 : 700M
- v2mini-eval1 : 300M
- Matériel d’entraînement
- v0/v0.5 : GPU RTX 4060, CPU i5-13400F, 16 Go de RAM
- v1, v2mini-eval1 : location de GPU A100 SXM
Mode d’utilisation
- Le projet se concentre sur la collecte de données historiques, leur nettoyage et la construction du tokenizer
- Procédure par étapes
- Collecte de textes historiques : récupérer des textes par période à partir de documents du domaine public, de livres, etc.
- Création du tokenizer : exécuter
train_tokenizer.pypour générervocab.jsonetmerges.txt - Entraînement du modèle : se référer à la documentation de nanoGPT ou de l’architecture choisie
Analyse des biais
- Des visualisations des biais pronominaux, géographiques et temporels sont fournies pour les résultats de v2mini-eval1
- Les statistiques détaillées sont disponibles dans le fichier
v2_bias_report.json
Licence et informations de publication
- Publié sous licence MIT
- Le projet compte 1.2k stars et 41 forks sur GitHub
- Langage principal : Python 100 %
- Dernière release : v2mini-eval2 — London (1800–1875)
1 commentaires
Réactions sur Hacker News
Je me demande ce qui se passerait si l’on entraînait un modèle de pointe en s’arrêtant à 1900, puis qu’on l’interrogeait sur la mécanique quantique (QM) et la relativité
Si le modèle donnait des réponses ne serait-ce qu’un peu justes, ce serait un indice très fort que les LLM ouvrent la voie vers une intelligence plus élevée
L’expérience de Michelson-Morley (1887), les transformations de Lorentz (1889) ou encore l’effet photoélectrique (1887) en sont des exemples
William Clifford est mort en 1889, mais il avait proposé l’idée d’expliquer la force et la matière par la courbure de l’espace
La science n’apparaît pas soudainement, et en synthétisant les articles de l’époque, il est possible que ces théories aient pu émerger naturellement
La qualité de l’OCR est mauvaise, donc je dois traiter la plupart des documents à la main, mais un modèle de 700M de paramètres reste faisable chez soi
En revanche, pour obtenir une vraie capacité de raisonnement, il faudrait plutôt un modèle de l’ordre de 70B
Un autre grand défi consiste à éviter que des connaissances de 2026 ne s’infiltrent pendant le fine-tuning et les phases de RL
La fin du XIXe siècle a été l’âge d’or de la chimie, et je me demande si un LLM pourrait proposer des prédictions thermodynamiques ou de nouvelles hypothèses
La discussion associée est visible dans ce fil HN
L’approche qui mesure la généralisation et la robustesse d’un modèle via le taux de compression des données (perplexity) est particulièrement impressionnante
Prendre “Who art Henry” pour de l’anglais du XIXe siècle semble révélateur d’un manque de sensibilité linguistique historique
En réalité, ce n’est grammaticalement correct à aucune époque
Il est intéressant de se demander si cette expérience pourrait servir de test pour montrer la possibilité d’une AGI
La question est de savoir si, en ne donnant que des données antérieures à un instant donné (année X), le modèle peut déduire de lui-même une découverte postérieure (Y)
Certaines découvertes peuvent naître de la combinaison d’idées existantes, mais la relativité et la mécanique quantique ont aussi exigé des expériences
Par exemple, même si un modèle de l’époque pouvait développer mathématiquement la relativité générale, il aurait très probablement attribué l’avance du périhélie de Mercure à la planète Vulcain (wiki sur Vulcain)
Des documents mal classés, des annotations ou des métadonnées font courir un risque important de fuite de connaissances
Il faudrait d’immenses quantités de texte, un très grand nombre de paramètres, ainsi qu’un processus de RLHF à la manière du XIXe siècle
Quelqu’un propose de comparer un modèle entraîné sur des données de 1800 à 1875 avec un autre entraîné sur des données de 1800 à 2025,
puis d’utiliser la différence entre les deux distributions de probabilité pour tenter de prédire 2040
En pratique, faire des prédictions précises serait difficile, mais comme expérience d’interpolation/extrapolation de distributions de probabilité, ce serait amusant
Le concept est intéressant, mais les archives de l’époque sont biaisées en faveur des élites du savoir
Ce n’était pas une époque où tout le monde laissait des traces écrites comme aujourd’hui
Les modèles actuels sont entraînés sur des dizaines de To de texte, alors que les données du XIXe siècle sont bien plus rares et moins diverses
C’est pourquoi obtenir des réponses sur le mode d’un article de presse à la question « que s’est-il passé en 1834 ? » est un résultat assez naturel
Les LLM actuels mélangent la pensée de trop de gens et produisent parfois des sorties très bruitées
Un modèle entraîné sur la vision cohérente d’une époque donnée pourrait avoir un style de réponse plus prévisible
En outre, le processus d’alignment reflète les valeurs du fournisseur
À l’inverse, un modèle fondé sur des données anciennes reflète les biais de son époque de manière plus « accidentelle »
Au minimum, un tel modèle pourrait sans doute empêcher la prolifération des emoji
Je me demande en revanche comment la tokenization changerait
Il n’aurait aucune connaissance du code, mais peut-être qu’en le combinant avec un LLM moderne, on pourrait générer des explications de code dans un style XIXe siècle
Je réfléchis aussi à la possibilité de mélanger des couches, un peu comme avec les anciens modèles de transfert de style
Il y a quelque chose d’assez mignon dans l’idée d’entraîner un modèle uniquement sur des documents antérieurs à l’ère de l’information, puis de lui apprendre ce qu’est un ordinateur
Mais pour l’instant, la sortie semble plus proche d’une chaîne de Markov que de ChatGPT
Cela m’a rappelé un autre « projet de LLM verrouillé dans le temps » récemment publié sur HN
Le résultat est soigné, mais ses auteurs réfléchissent encore à la manière d’éviter les usages abusifs et les malentendus
Voir ce fil associé
Si ce modèle produisait des sorties cohérentes, cela pourrait réfuter l’idée que des contenus sous copyright sont indispensables à l’entraînement des LLM
Mais à ce stade, on n’en est sans doute pas là
The Common Pile v0.1 a permis de construire un modèle de 7B de paramètres à partir de 8 To de texte public
J’ai moi aussi fait une expérience similaire : projet transformer
J’ai entraîné des modèles séparés sur différents corpus, comme la Bible, Don Quichotte et Kafka
(J’avais aussi un générateur de paroles et un traducteur, mais la qualité n’était pas terrible)