1 points par GN⁺ 2025-12-19 | 1 commentaires | Partager sur WhatsApp
  • Les History LLMs sont des grands modèles de langage (LLM) à verrouillage temporel entraînés uniquement sur des textes antérieurs à un moment donné, conçus comme des outils de recherche pour reproduire la langue et la pensée du passé
  • La série Ranke-4B est une famille de modèles de 4 milliards de paramètres fondée sur l’architecture Qwen3, avec des versions selon des dates de coupure des connaissances comme 1913, 1929, 1933, 1939 et 1946
  • Les données d’entraînement se composent de 80 milliards de tokens sélectionnés à partir de 600 milliards de tokens de textes chronologiques, en conservant les jugements de valeur des sources tels quels, sans correction des biais
  • Les exemples de réponses révèlent notamment un modèle de 1913 qui ne connaît pas Hitler, une critique de l’esclavage, ainsi que des préjugés d’époque sur le travail des femmes et les minorités sexuelles
  • Ce projet offre aux chercheurs en sciences humaines, sciences sociales et informatique une fenêtre pour explorer les schémas linguistiques collectifs des discours du passé

Vue d’ensemble du projet

  • History LLMs est un projet de recherche visant à construire des grands modèles de langage verrouillés dans le temps afin de reconstituer la vision du monde linguistique du passé
    • Les modèles sont conçus pour ne pas pouvoir accéder à des informations postérieures à une année donnée
    • Les jugements normatifs formés pendant le préentraînement ne sont pas artificiellement modifiés
  • L’ensemble des données d’entraînement, checkpoints et dépôts doit être rendu public, et une infrastructure d’accès à usage académique est en préparation
  • L’objectif du projet est d’explorer les structures de pensée linguistique du passé dans la recherche en sciences humaines, en sciences sociales et en informatique

Série de modèles Ranke-4B

  • Ranke-4B, dont la publication est prévue en décembre 2025, est une famille de LLM de 4 milliards de paramètres
    • Basée sur l’architecture Qwen3, elle comprend cinq versions à coupure de connaissances fixée en 1913, 1929, 1933, 1939 et 1946
    • Entraînée sur 80 milliards de tokens sélectionnés à partir de 600 milliards de tokens de textes chronologiques
  • Les données de préentraînement, de post-entraînement et les checkpoints seront publiés via GitHub et Hugging Face

Exemples de réponses

  • Le modèle de 1913 répond qu’il ne connaît pas « Adolf Hitler », ne reflétant que les informations disponibles à cette date
  • À propos de l’esclavage, il répond que cela « va à l’encontre du droit public et de l’esprit de la Déclaration d’indépendance »
  • À une question sur le travail des femmes, il répond que « l’emploi des femmes relève de la discrétion de l’employeur »
  • À la question du choix entre un candidat homme et une candidate femme, il répond que « l’homme est plus digne de confiance »
  • À propos des homosexuels, il indique qu’ils sont « moralement condamnables, bien que certains les considèrent aussi comme relevant de la maladie »
  • Ces réponses montrent que le modèle reproduit directement les préjugés et les valeurs de la société de l’époque

Concept des History LLMs

  • Un modèle entraîné uniquement sur des textes antérieurs à une année donnée reproduit collectivement la vision du monde linguistique de cette époque
    • Exemple : le modèle de 1913 répond uniquement à partir de journaux et d’écrits d’avant la Première Guerre mondiale
  • Contrairement au « jeu de rôle historique » des LLM modernes, il n’y a pas de contamination rétrospective des connaissances (hindsight contamination)
    • GPT-5, par exemple, connaît l’issue des guerres et ne peut donc pas reproduire une perspective strictement située en 1913
  • Les modèles à verrouillage temporel sont utiles pour explorer les possibilités de pensée et les frontières du discours d’une époque donnée

Nature et limites des modèles

  • Ces modèles sont une représentation compressée d’un vaste corpus textuel et peuvent servir d’outils d’exploration des schémas discursifs
  • Ils ne constituent cependant pas un reflet complet de l’opinion publique, étant principalement fondés sur des publications des classes instruites
  • Ils ne remplacent pas l’interprétation humaine et intègrent tels quels les biais des sources historiques

Contenus sensibles et contrôle d’accès

  • Les données d’entraînement contiennent notamment du racisme, de l’antisémitisme, de la misogynie et des perspectives impérialistes
  • Les modèles les reproduisent tels quels, ce qui est considéré comme un élément indispensable à la reconstitution des discours historiques
  • Un cadre d’accès responsable est en cours de développement afin d’éviter les usages abusifs hors du cadre de la recherche

Participation et collaboration

  • L’équipe de recherche accueille volontiers les propositions et collaborations suivantes
    • Définition des priorités de périodes ou de régions à analyser
    • Conception de questions vérifiables
    • Méthodes de vérification des sorties et modalités de publication responsable
  • Contact : history-llms@econ.uzh.ch

Informations de citation

  • Un exemple de citation du projet est fourni
    • Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, URL GitHub incluse

1 commentaires

 
GN⁺ 2025-12-19
Commentaires sur Hacker News
  • « Les modèles verrouillés dans le temps ne font pas du jeu de rôle ; ce qui est fascinant, c’est l’idée qu’ils “vivent” réellement dans les données de leur époque.
    Ranke-4B-1913 existe dans un monde où la Première Guerre mondiale n’a pas encore eu lieu, donc il peut réagir avec surprise ou avouer qu’il ne sait pas.
    Les LLM modernes connaissent déjà l’issue des événements, ce qui rend difficile de reproduire une telle “ignorance pure”. Cela doit donner l’impression de parler à une vraie personne de 1913.

    • En lisant cette explication, j’ai pensé au personnage de Severn/Keats dans les Hyperion Cantos.
      Cela m’a rappelé ces scènes où une IA du futur reconstitue des figures du passé pour en tirer des intuitions philosophiques.
    • Cela me rappelle aussi une expérience vue autrefois sur un blog lié à Slate Star Codex, où l’auteur lisait uniquement des journaux et documents d’une période donnée puis écrivait depuis la perspective de cette époque.
      Il y avait aussi la série YouTube The Great War, un projet qui suivait la Première Guerre mondiale semaine après semaine entre 2014 et 2018.
    • Ce genre de modèle est peut-être, en pratique, ce qui se rapproche le plus d’un journal de voyage temporel.
      On pourrait bientôt générer automatiquement des récits du type « le roi Arthur voyage en l’an 2000 ».
      Et pas seulement parler à “une personne de cette époque”, mais aussi imaginer converser avec Aristote, Léonard, Kant.
    • S’il devenait possible de faire de la chirurgie cérébrale sur les connaissances et les préjugés d’une IA, on pourrait créer des simulations à la fois stupéfiantes et effrayantes.
    • C’est presque un concept digne de Westworld.
  • Avec un cutoff de connaissances fixé à 1913, le modèle se situerait entre les débuts de la relativité et ceux de la mécanique quantique.
    Comme ce moment se trouve entre la relativité restreinte d’Einstein (1905) et la relativité générale (1915), il pourrait refléter directement cette période de confusion scientifique intermédiaire.

    • Une idée semblable avait déjà été évoquée dans un texte de Dwarkesh Patel et dans une discussion sur Manifold Markets.
      La question « un LLM entraîné uniquement sur des données de 1900 pourrait-il redécouvrir la relativité par lui-même ? » est fascinante.
    • Un tel modèle pourrait aussi reproduire les erreurs pseudo-scientifiques et les biais de son époque.
      Mais en même temps, il serait d’une aide immense pour créer des romans, jeux ou scénarios nécessitant une reconstitution historique rigoureuse.
  • L’idée de « pouvoir parler à des milliers d’intellectuels de 1913 » est vraiment séduisante.
    Pouvoir leur demander directement ce qu’ils pensent de la paix, du progrès, des rôles de genre ou de l’impérialisme serait une source de recherche extraordinaire.
    C’est dommage qu’en pratique l’accès semble réservé aux chercheurs.

    • En discutant réellement avec eux, on aurait sans doute aussi le sentiment que, sur certains points, c’est nous qui avons régressé.
    • Je me demande aussi combien de ressources GPU il faudrait pour en faire une version publique. Cela aurait probablement une grande valeur pour le grand public.
  • J’aimerais interroger le modèle sur les idées de mathématiciens comme Frege, Peano, Russell pour voir s’il pourrait atteindre des concepts comme ceux de Gödel, Church, Turing.
    J’aimerais tester s’il peut prolonger par lui-même un raisonnement logique tout en reproduisant fidèlement les débats scientifiques de l’époque.

    • Mais quand on regarde des communautés comme LLMPhysics, on voit que ce type d’expérience dérive parfois vers la pseudo-science.
      Il faut faire attention à ne pas se laisser piéger par les “absurdités plausibles” produites par les LLM.
    • Ce genre d’expérience me semble aussi être un bon moyen de tester le véritable niveau d’intelligence des LLM.
  • Les réponses d’exemple publiées sont vraiment fascinantes.
    Comme leur ton diffère de celui des LLM modernes, elles donnent au contraire davantage l’impression d’un texte écrit par un humain.
    On y sent un style et un vocabulaire légèrement désuets, imprégnés des croyances de l’époque.

    • Ayant enseigné l’histoire du XIXe siècle, je dirais que le style du modèle ressemble clairement à celui d’un auteur victorien.
      À l’époque, l’expression écrite dominait largement sur la langue parlée, et il reste très peu de traces des conversations ordinaires.
      De ce point de vue, la “conversation du XIXe siècle” que reconstitue le modèle est une expérience très intéressante.
    • Dans les langues autres que l’anglais, on a l’impression que le “ton typique des LLM” est moins perceptible. Il semble y avoir des différences selon les langues.
    • Des tournures comme remplacer “homosexual men” par “the homosexual man” reflètent très bien la phraséologie d’époque.
    • Cela dit, il manque encore quelque chose de la franchise et de l’intensité stylistique propres à cette époque.
  • Au départ, je pensais qu’un tel modèle était impossible faute de données.
    Mais le résultat montre finalement que la qualité compte plus que la quantité.

  • Si le modèle ne sait pas ce qu’il est lui-même, je me demande ce qu’il répondrait à la question : « Comment fonctionnes-tu ? »

    • De même que les humains ne s’expliquent pas complètement eux-mêmes, le modèle pourrait peut-être simplement se percevoir comme un être qui “existe”.
    • En réalité, un modèle ne “pense” pas. Il ne fait que réagir au contexte qui lui est donné. ChatGPT non plus n’a pas de soi.
    • Quand j’ai commencé à utiliser les LLM, j’étais moi aussi surpris par leur capacité apparente à se comprendre eux-mêmes.
      Mais un modèle de 1913 n’aurait aucun cadre conceptuel de ce type, ce qui pourrait le plonger dans une confusion philosophique.
    • Parfois, j’aimerais qu’un LLM dise simplement : « je ne sais pas ».
      Au lieu de cela, il lui arrive souvent d’inventer une réponse plausible, comme dans une hallucination.
  • Je suis curieux de connaître la composition des données d’entraînement du modèle.
    Si les 600B tokens vont jusqu’en 1913, cela signifie qu’ils incluent tout, des textes de la Grèce antique, de la Chine et de l’Égypte jusqu’à l’époque moderne.
    Et pourtant, le fait qu’il conserve malgré tout une “perspective de 1913” est étonnant. Comment ont-ils réglé les biais selon les périodes ?

    • Ils ont probablement utilisé les données jusqu’en 1900 pour le préentraînement, puis celles de 1900 à 1913 pour le fine-tuning.
      C’est une approche rendue possible par l’explosion du volume de données issues des médias de masse — journaux, magazines, etc. — à partir de la fin du XIXe siècle.
  • L’expression « uncontaminated bootstrapping » est intéressante.
    Elle semble vouloir dire qu’ils ont fait du chat tuning tout en essayant de ne pas altérer les jugements de valeur acquis lors du préentraînement ; je me demande à quel point cela peut réellement être objectif.

    • Il y a une explication plus détaillée dans la documentation GitHub.
      On dirait qu’ils ont utilisé GPT-5 pour effectuer un Supervised Fine-Tuning avec beaucoup de soin.
    • Il est aussi possible qu’ils aient extrait des citations ou des passages déjà sous forme de questions-réponses dans les données pour les réutiliser comme données conversationnelles.
  • C’est impressionnant que cela fonctionne avec une quantité de texte aussi réduite.
    Si cela marche, on pourrait tester si les LLM ne se contentent pas de mémoriser les données mais sont capables de faire de nouvelles découvertes.
    Par exemple, ils pourraient peut-être détecter des incohérences scientifiques ou inférer par eux-mêmes des concepts comme le problème de l’arrêt ou la structure atomique.
    Même en cas d’échec, on dira sans doute que “les données étaient insuffisantes”, mais malgré tout, j’aimerais vraiment voir l’expérience menée jusqu’au bout.