Des modèles de langage historiques entraînés uniquement sur des textes antérieurs à 1913

(github.com/DGoettlich)

1 points par GN⁺ 2025-12-19 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Les History LLMs sont des grands modèles de langage (LLM) à verrouillage temporel entraînés uniquement sur des textes antérieurs à un moment donné, conçus comme des outils de recherche pour reproduire la langue et la pensée du passé
La série Ranke-4B est une famille de modèles de 4 milliards de paramètres fondée sur l’architecture Qwen3, avec des versions selon des dates de coupure des connaissances comme 1913, 1929, 1933, 1939 et 1946
Les données d’entraînement se composent de 80 milliards de tokens sélectionnés à partir de 600 milliards de tokens de textes chronologiques, en conservant les jugements de valeur des sources tels quels, sans correction des biais
Les exemples de réponses révèlent notamment un modèle de 1913 qui ne connaît pas Hitler, une critique de l’esclavage, ainsi que des préjugés d’époque sur le travail des femmes et les minorités sexuelles
Ce projet offre aux chercheurs en sciences humaines, sciences sociales et informatique une fenêtre pour explorer les schémas linguistiques collectifs des discours du passé

Vue d’ensemble du projet

History LLMs est un projet de recherche visant à construire des grands modèles de langage verrouillés dans le temps afin de reconstituer la vision du monde linguistique du passé
- Les modèles sont conçus pour ne pas pouvoir accéder à des informations postérieures à une année donnée
- Les jugements normatifs formés pendant le préentraînement ne sont pas artificiellement modifiés
L’ensemble des données d’entraînement, checkpoints et dépôts doit être rendu public, et une infrastructure d’accès à usage académique est en préparation
L’objectif du projet est d’explorer les structures de pensée linguistique du passé dans la recherche en sciences humaines, en sciences sociales et en informatique

Ranke-4B, dont la publication est prévue en décembre 2025, est une famille de LLM de 4 milliards de paramètres
- Basée sur l’architecture Qwen3, elle comprend cinq versions à coupure de connaissances fixée en 1913, 1929, 1933, 1939 et 1946
- Entraînée sur 80 milliards de tokens sélectionnés à partir de 600 milliards de tokens de textes chronologiques
Les données de préentraînement, de post-entraînement et les checkpoints seront publiés via GitHub et Hugging Face

Le modèle de 1913 répond qu’il ne connaît pas « Adolf Hitler », ne reflétant que les informations disponibles à cette date
À propos de l’esclavage, il répond que cela « va à l’encontre du droit public et de l’esprit de la Déclaration d’indépendance »
À une question sur le travail des femmes, il répond que « l’emploi des femmes relève de la discrétion de l’employeur »
À la question du choix entre un candidat homme et une candidate femme, il répond que « l’homme est plus digne de confiance »
À propos des homosexuels, il indique qu’ils sont « moralement condamnables, bien que certains les considèrent aussi comme relevant de la maladie »
Ces réponses montrent que le modèle reproduit directement les préjugés et les valeurs de la société de l’époque

Un modèle entraîné uniquement sur des textes antérieurs à une année donnée reproduit collectivement la vision du monde linguistique de cette époque
- Exemple : le modèle de 1913 répond uniquement à partir de journaux et d’écrits d’avant la Première Guerre mondiale
Contrairement au « jeu de rôle historique » des LLM modernes, il n’y a pas de contamination rétrospective des connaissances (hindsight contamination)
- GPT-5, par exemple, connaît l’issue des guerres et ne peut donc pas reproduire une perspective strictement située en 1913
Les modèles à verrouillage temporel sont utiles pour explorer les possibilités de pensée et les frontières du discours d’une époque donnée

Ces modèles sont une représentation compressée d’un vaste corpus textuel et peuvent servir d’outils d’exploration des schémas discursifs
Ils ne constituent cependant pas un reflet complet de l’opinion publique, étant principalement fondés sur des publications des classes instruites
Ils ne remplacent pas l’interprétation humaine et intègrent tels quels les biais des sources historiques

Les données d’entraînement contiennent notamment du racisme, de l’antisémitisme, de la misogynie et des perspectives impérialistes
Les modèles les reproduisent tels quels, ce qui est considéré comme un élément indispensable à la reconstitution des discours historiques
Un cadre d’accès responsable est en cours de développement afin d’éviter les usages abusifs hors du cadre de la recherche

L’équipe de recherche accueille volontiers les propositions et collaborations suivantes
- Définition des priorités de périodes ou de régions à analyser
- Conception de questions vérifiables
- Méthodes de vérification des sorties et modalités de publication responsable
Contact : history-llms@econ.uzh.ch

Un exemple de citation du projet est fourni
- Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, URL GitHub incluse