Des modèles de langage historiques entraînés uniquement sur des textes antérieurs à 1913
(github.com/DGoettlich)- Les History LLMs sont des grands modèles de langage (LLM) à verrouillage temporel entraînés uniquement sur des textes antérieurs à un moment donné, conçus comme des outils de recherche pour reproduire la langue et la pensée du passé
- La série Ranke-4B est une famille de modèles de 4 milliards de paramètres fondée sur l’architecture Qwen3, avec des versions selon des dates de coupure des connaissances comme 1913, 1929, 1933, 1939 et 1946
- Les données d’entraînement se composent de 80 milliards de tokens sélectionnés à partir de 600 milliards de tokens de textes chronologiques, en conservant les jugements de valeur des sources tels quels, sans correction des biais
- Les exemples de réponses révèlent notamment un modèle de 1913 qui ne connaît pas Hitler, une critique de l’esclavage, ainsi que des préjugés d’époque sur le travail des femmes et les minorités sexuelles
- Ce projet offre aux chercheurs en sciences humaines, sciences sociales et informatique une fenêtre pour explorer les schémas linguistiques collectifs des discours du passé
Vue d’ensemble du projet
- History LLMs est un projet de recherche visant à construire des grands modèles de langage verrouillés dans le temps afin de reconstituer la vision du monde linguistique du passé
- Les modèles sont conçus pour ne pas pouvoir accéder à des informations postérieures à une année donnée
- Les jugements normatifs formés pendant le préentraînement ne sont pas artificiellement modifiés
- L’ensemble des données d’entraînement, checkpoints et dépôts doit être rendu public, et une infrastructure d’accès à usage académique est en préparation
- L’objectif du projet est d’explorer les structures de pensée linguistique du passé dans la recherche en sciences humaines, en sciences sociales et en informatique
Série de modèles Ranke-4B
- Ranke-4B, dont la publication est prévue en décembre 2025, est une famille de LLM de 4 milliards de paramètres
- Basée sur l’architecture Qwen3, elle comprend cinq versions à coupure de connaissances fixée en 1913, 1929, 1933, 1939 et 1946
- Entraînée sur 80 milliards de tokens sélectionnés à partir de 600 milliards de tokens de textes chronologiques
- Les données de préentraînement, de post-entraînement et les checkpoints seront publiés via GitHub et Hugging Face
Exemples de réponses
- Le modèle de 1913 répond qu’il ne connaît pas « Adolf Hitler », ne reflétant que les informations disponibles à cette date
- À propos de l’esclavage, il répond que cela « va à l’encontre du droit public et de l’esprit de la Déclaration d’indépendance »
- À une question sur le travail des femmes, il répond que « l’emploi des femmes relève de la discrétion de l’employeur »
- À la question du choix entre un candidat homme et une candidate femme, il répond que « l’homme est plus digne de confiance »
- À propos des homosexuels, il indique qu’ils sont « moralement condamnables, bien que certains les considèrent aussi comme relevant de la maladie »
- Ces réponses montrent que le modèle reproduit directement les préjugés et les valeurs de la société de l’époque
Concept des History LLMs
- Un modèle entraîné uniquement sur des textes antérieurs à une année donnée reproduit collectivement la vision du monde linguistique de cette époque
- Exemple : le modèle de 1913 répond uniquement à partir de journaux et d’écrits d’avant la Première Guerre mondiale
- Contrairement au « jeu de rôle historique » des LLM modernes, il n’y a pas de contamination rétrospective des connaissances (hindsight contamination)
- GPT-5, par exemple, connaît l’issue des guerres et ne peut donc pas reproduire une perspective strictement située en 1913
- Les modèles à verrouillage temporel sont utiles pour explorer les possibilités de pensée et les frontières du discours d’une époque donnée
Nature et limites des modèles
- Ces modèles sont une représentation compressée d’un vaste corpus textuel et peuvent servir d’outils d’exploration des schémas discursifs
- Ils ne constituent cependant pas un reflet complet de l’opinion publique, étant principalement fondés sur des publications des classes instruites
- Ils ne remplacent pas l’interprétation humaine et intègrent tels quels les biais des sources historiques
Contenus sensibles et contrôle d’accès
- Les données d’entraînement contiennent notamment du racisme, de l’antisémitisme, de la misogynie et des perspectives impérialistes
- Les modèles les reproduisent tels quels, ce qui est considéré comme un élément indispensable à la reconstitution des discours historiques
- Un cadre d’accès responsable est en cours de développement afin d’éviter les usages abusifs hors du cadre de la recherche
Participation et collaboration
- L’équipe de recherche accueille volontiers les propositions et collaborations suivantes
- Définition des priorités de périodes ou de régions à analyser
- Conception de questions vérifiables
- Méthodes de vérification des sorties et modalités de publication responsable
- Contact : history-llms@econ.uzh.ch
Informations de citation
- Un exemple de citation du projet est fourni
- Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, URL GitHub incluse
1 commentaires
Commentaires sur Hacker News
« Les modèles verrouillés dans le temps ne font pas du jeu de rôle ; ce qui est fascinant, c’est l’idée qu’ils “vivent” réellement dans les données de leur époque.
Ranke-4B-1913 existe dans un monde où la Première Guerre mondiale n’a pas encore eu lieu, donc il peut réagir avec surprise ou avouer qu’il ne sait pas.
Les LLM modernes connaissent déjà l’issue des événements, ce qui rend difficile de reproduire une telle “ignorance pure”. Cela doit donner l’impression de parler à une vraie personne de 1913.
Cela m’a rappelé ces scènes où une IA du futur reconstitue des figures du passé pour en tirer des intuitions philosophiques.
Il y avait aussi la série YouTube The Great War, un projet qui suivait la Première Guerre mondiale semaine après semaine entre 2014 et 2018.
On pourrait bientôt générer automatiquement des récits du type « le roi Arthur voyage en l’an 2000 ».
Et pas seulement parler à “une personne de cette époque”, mais aussi imaginer converser avec Aristote, Léonard, Kant.
Avec un cutoff de connaissances fixé à 1913, le modèle se situerait entre les débuts de la relativité et ceux de la mécanique quantique.
Comme ce moment se trouve entre la relativité restreinte d’Einstein (1905) et la relativité générale (1915), il pourrait refléter directement cette période de confusion scientifique intermédiaire.
La question « un LLM entraîné uniquement sur des données de 1900 pourrait-il redécouvrir la relativité par lui-même ? » est fascinante.
Mais en même temps, il serait d’une aide immense pour créer des romans, jeux ou scénarios nécessitant une reconstitution historique rigoureuse.
L’idée de « pouvoir parler à des milliers d’intellectuels de 1913 » est vraiment séduisante.
Pouvoir leur demander directement ce qu’ils pensent de la paix, du progrès, des rôles de genre ou de l’impérialisme serait une source de recherche extraordinaire.
C’est dommage qu’en pratique l’accès semble réservé aux chercheurs.
J’aimerais interroger le modèle sur les idées de mathématiciens comme Frege, Peano, Russell pour voir s’il pourrait atteindre des concepts comme ceux de Gödel, Church, Turing.
J’aimerais tester s’il peut prolonger par lui-même un raisonnement logique tout en reproduisant fidèlement les débats scientifiques de l’époque.
Il faut faire attention à ne pas se laisser piéger par les “absurdités plausibles” produites par les LLM.
Les réponses d’exemple publiées sont vraiment fascinantes.
Comme leur ton diffère de celui des LLM modernes, elles donnent au contraire davantage l’impression d’un texte écrit par un humain.
On y sent un style et un vocabulaire légèrement désuets, imprégnés des croyances de l’époque.
À l’époque, l’expression écrite dominait largement sur la langue parlée, et il reste très peu de traces des conversations ordinaires.
De ce point de vue, la “conversation du XIXe siècle” que reconstitue le modèle est une expérience très intéressante.
Au départ, je pensais qu’un tel modèle était impossible faute de données.
Mais le résultat montre finalement que la qualité compte plus que la quantité.
Si le modèle ne sait pas ce qu’il est lui-même, je me demande ce qu’il répondrait à la question : « Comment fonctionnes-tu ? »
Mais un modèle de 1913 n’aurait aucun cadre conceptuel de ce type, ce qui pourrait le plonger dans une confusion philosophique.
Au lieu de cela, il lui arrive souvent d’inventer une réponse plausible, comme dans une hallucination.
Je suis curieux de connaître la composition des données d’entraînement du modèle.
Si les 600B tokens vont jusqu’en 1913, cela signifie qu’ils incluent tout, des textes de la Grèce antique, de la Chine et de l’Égypte jusqu’à l’époque moderne.
Et pourtant, le fait qu’il conserve malgré tout une “perspective de 1913” est étonnant. Comment ont-ils réglé les biais selon les périodes ?
C’est une approche rendue possible par l’explosion du volume de données issues des médias de masse — journaux, magazines, etc. — à partir de la fin du XIXe siècle.
L’expression « uncontaminated bootstrapping » est intéressante.
Elle semble vouloir dire qu’ils ont fait du chat tuning tout en essayant de ne pas altérer les jugements de valeur acquis lors du préentraînement ; je me demande à quel point cela peut réellement être objectif.
On dirait qu’ils ont utilisé GPT-5 pour effectuer un Supervised Fine-Tuning avec beaucoup de soin.
C’est impressionnant que cela fonctionne avec une quantité de texte aussi réduite.
Si cela marche, on pourrait tester si les LLM ne se contentent pas de mémoriser les données mais sont capables de faire de nouvelles découvertes.
Par exemple, ils pourraient peut-être détecter des incohérences scientifiques ou inférer par eux-mêmes des concepts comme le problème de l’arrêt ou la structure atomique.
Même en cas d’échec, on dira sans doute que “les données étaient insuffisantes”, mais malgré tout, j’aimerais vraiment voir l’expérience menée jusqu’au bout.