Talkie, un modèle de langage vintage 13B de 1930
(talkie-lm.com)- Un modèle de langage 13B entraîné uniquement sur 260B tokens de textes anglais antérieurs à 1931, permettant des expériences de conversation et de généralisation avec un modèle qui ignore le monde moderne
- En s’appuyant sur une hausse de la surprise après la date de coupure des connaissances et sur un cadre d’évaluation moins contaminé, il devient possible de tester plus directement la prédiction d’événements futurs et la capacité à atteindre de nouvelles idées
- Comparé à un modèle contemporain entraîné sur le web avec la même architecture, il affiche des performances généralement plus faibles sur les évaluations standard, mais l’écart se réduit une fois filtrées les questions anachroniques, et un niveau comparable est observé en compréhension du langage et sur les tâches de calcul
- Les plus grandes difficultés sont les fuites temporelles et la qualité des données : des métadonnées de date erronées ou des insertions éditoriales ultérieures peuvent briser la coupure, et la qualité de transcription des documents historiques influence fortement les performances
- Un post-entraînement conversationnel a été construit séparément, sans données modernes d’instruction, et le projet dispose d’une base de recherche à long terme allant vers des modèles plus grands, l’extension du corpus, le re-OCR et un renforcement de la détection des fuites
Pourquoi un modèle de langage vintage
- Un modèle de langage vintage est entraîné uniquement sur des textes antérieurs à une époque donnée, afin de créer l’expérience d’un dialogue avec un modèle qui ne connaît pas le monde moderne
- Ce type de modèle n’est pas seulement un interlocuteur intéressant, mais aussi un outil de recherche pour élargir la compréhension générale de l’IA
- Sur un modèle 13B entraîné uniquement sur des textes antérieurs à 1931, environ 5 000 descriptions d’événements de « On This Day » du New York Times ont été injectées, et la surprise a été mesurée en bits par octet de texte
- La surprise augmente après la date de coupure des connaissances, particulièrement dans les années 1950 et 1960, avant de se stabiliser
- L’évaluation de la prédiction du futur se prolonge par la mesure de la façon dont les performances s’améliorent avec la taille du modèle, puis s’affaiblissent sur des intervalles temporels plus longs
- La capacité à atteindre de nouvelles idées peut aussi être testée en demandant si le modèle peut imaginer de manière indépendante des inventions et découvertes scientifiques apparues après la date de coupure
- Un cadre d’évaluation sans contamination constitue également un avantage important
- La contamination est présentée comme un problème persistant qui conduit à surestimer les capacités des modèles de langage
- Les modèles vintage sont structurellement moins contaminés, ce qui permet d’expérimenter plus directement la généralisation hors des données de préentraînement
Présentation de Talkie
- talkie-1930-13b-base est un modèle de langage 13B entraîné sur 260B tokens de textes anglais antérieurs à 1931
- talkie-1930-13b-it est un checkpoint ultérieur qui transforme ce modèle de base en version conversationnelle
- Il a été conçu pour ne pas dépendre de journaux modernes de conversations de chat ni de données modernes d’instruction-tuning
- Le flux live 24h/24 du widget en haut est exploité sous la forme de Claude Sonnet 4.6 qui utilise talkie-1930-13b-it par prompt afin d’explorer ses connaissances, ses capacités et ses tendances
- Talkie est présenté comme le plus grand modèle de langage vintage à la date du texte
- L’étape suivante consiste à entraîner un modèle de niveau GPT-3, avec un objectif de publication durant l’été
- Une estimation préliminaire indique aussi qu’il serait possible de porter le corpus de textes historiques à plus d’un trillion de tokens
- Il est indiqué que cette échelle pourrait suffire à produire un modèle de niveau GPT-3.5 doté de capacités comparables au ChatGPT d’origine
Évaluation des performances et généralisation
- Un modèle jumeau contemporain, talkie-web-13b-base, a été créé : l’architecture est identique, mais l’entraînement repose sur des données web contemporaines issues de FineWeb
- Même entraîné avec le même volume de FLOPs, Talkie montre des performances en moyenne inférieures à celles du modèle contemporain sur les évaluations LM standard
- Cette différence reste présente même après correction de l’anachronisme des questions
- Le texte indique toutefois qu’un niveau comparable a été observé sur les tâches essentielles de compréhension du langage et de calcul
- D’après la Figure 4, si l’on filtre les questions anachroniques, l’écart de performance est réduit d’environ moitié
- Des expériences de généralisation en code ont également été menées
- Avec HumanEval, une paire composée d’un modèle vintage fondé sur des textes antérieurs à 1931 et d’un modèle contemporain fondé sur le web est comparée
- Des exemples aléatoires de fonctions Python sont fournis en apprentissage en contexte, puis on mesure la proportion de problèmes résolus au moins une fois en 100 essais
- Le modèle vintage reste nettement en retrait par rapport au modèle entraîné sur des données web, mais cette tâche progresse elle aussi lentement et régulièrement à mesure que l’échelle augmente
- Les solutions correctes actuelles se limitent à des programmes d’une ligne très simples ou à de petites variations d’exemples vus en contexte
- Un exemple est inclus où, à partir d’une fonction d’encodage par rotation, le modèle implémente une fonction de décodage
- Il ne s’agit que d’une modification d’un caractère, remplaçant une addition par une soustraction, mais cela est interprété comme un signal d’une compréhension des fonctions inverses
Collecte des données et difficultés d’entraînement
- Le projet indique avoir collecté des tokens d’anglais antérieurs à 1931 par centaines de milliards, et non par dizaines de milliards
- Les données incluent des livres, journaux, périodiques, revues scientifiques, brevets et décisions de justice
- La fin de l’année 1930 a été choisie comme date de coupure, car c’est à partir de ce point que les œuvres entrent dans le domaine public aux États-Unis
- Cette version se limite principalement aux textes en anglais
- Il est indiqué que la validation du pipeline de données exige une connaissance approfondie des documents sources, et que l’équipe de développement est anglophone native
- L’extension multilingue est présentée comme une priorité élevée
- L’objectif est à la fois d’augmenter la taille du corpus et d’élargir la diversité des points de vue représentés
-
Fuites temporelles
- L’objectif le plus important est d’empêcher que des données postérieures à la date de coupure des connaissances ne s’infiltrent dans le corpus d’entraînement
- Ces fuites peuvent provenir de documents modernes avec des métadonnées de date erronées, ou d’éléments ajoutés plus tard dans des documents anciens, comme des préfaces d’éditeur ou des notes de bas de page
- Dans Talkie-1930, le corpus de préentraînement est filtré à l’aide d’un classifieur d’anachronismes fondé sur des n-grammes au niveau du document
- Ce filtrage n’était pas complet
- La première version 7B connaissait clairement la présidence de Roosevelt et la législation du New Deal
- La version 13B connaît aussi certains éléments de la Seconde Guerre mondiale et de l’ordre d’après-guerre, notamment des détails sur les Nations unies et la division de l’Allemagne
- Pour les versions suivantes, le projet développe des techniques de détection et de filtrage des fuites s’appuyant sur des classifieurs plus avancés
-
Qualité des données
- En 1930, l’édition numérique n’existait pas : tous les textes du dataset ont donc dû être transcrits à partir de sources physiques
- Ce processus introduit un type de bruit qui n’existe pas dans les textes nativement numériques
- Les systèmes OCR classiques traitent mal les documents historiques, sauf dans le cas de mises en page simples et de scans propres
- Les OCR fondés sur des VLM modernes sont plus précis, mais le texte indique qu’ils peuvent halluciner des faits modernes dans le corpus et ruiner l’expérience
- Dans des expériences contrôlées, entraîner un LM sur des textes antérieurs à 1931 transcrits avec un OCR classique n’atteint que 30 % des performances obtenues avec des transcriptions humaines, à budget de calcul égal
- L’application d’un simple nettoyage par regex permet de remonter à 70 %, mais l’écart reste important
- Pour réduire cette différence, il est prévu de retranscrire le corpus Talkie avec un système OCR vintage
-
Post-entraînement vintage
- Le manque de données de post-entraînement prêtes à l’emploi constitue aussi un problème majeur
- Un affinage sur des paires instruction-réponse classiques injecterait directement des connaissances anachroniques, un style moderne et des attentes propres aux assistants de chat
- Pour l’éviter, le pipeline de post-entraînement a été reconstruit à partir de zéro
- D’abord, des paires instruction-réponse sont générées à partir de textes historiques à structure régulière, comme des manuels de savoir-vivre, guides de rédaction de lettres, livres de cuisine, dictionnaires, encyclopédies, recueils de poésie et de fables, puis utilisées pour un fine-tuning au format de chat simple
- Ensuite, des prompts synthétiques couvrant des tâches comme le résumé de documents, la réponse directe à des demandes d’information et la poursuite de dialogues à plusieurs tours sont créés, puis un online direct preference optimization est réalisé avec Claude Sonnet 4.6 comme juge
- Sur un ensemble d’évaluation séparé, la note moyenne de suivi d’instructions attribuée par le juge est passée de 2,0 à 3,4 sur 5
- Enfin, un dernier supervised fine-tuning est réalisé à partir de dialogues synthétiques multi-tours, échantillonnés par rejet, entre Claude Opus 4.6 et Talkie
- Il est indiqué que l’apprentissage par renforcement fondé sur le feedback d’IA laisse inévitablement une influence moderne
- Après RL, la version 7B de Talkie prenait parfois un ton de listicle
- En augmentant l’échelle, l’équipe espère pouvoir utiliser le modèle vintage de base lui-même comme juge afin de mettre en place un post-entraînement entièrement bootstrapé et conforme à son époque
Plan d’extension futur
- Le projet avance à la fois sur l’extension du corpus anglais et sur l’ouverture à des langues autres que l’anglais
- Il est prévu d’effectuer un re-OCR d’autant de textes antérieurs à 1931 que possible avec un nouveau système OCR
- Le pipeline de détection des fuites sera renforcé grâce à de nouvelles méthodes de classification des anachronismes
- L’équipe prévoit d’élargir et d’affiner le pipeline de post-entraînement vintage en collaboration avec des historiens
- Cela inclut aussi une méthodologie pour construire des personas historiquement exacts
Usages et propositions de collaboration
- GitHub : code du projet et point d’entrée pour la collaboration en recherche
- Hugging Face : lieu de publication des checkpoints des modèles
- 💬 Chat : interface de conversation Talkie
- hello@talkie-lm.com : contact pour les collaborations
- Le projet cherche à collaborer avec des chercheurs et des institutions disposant de textes historiques, y compris pour améliorer leur accessibilité via l’OCR
- Il est aussi ouvert à un soutien en financement ou en calcul, et indique pouvoir mettre en relation avec d’autres équipes du domaine
- Avec les chercheurs en sciences humaines, il propose d’échanger sur l’usage des données et de l’infrastructure des modèles de langage vintage entraînés
- Avec les chercheurs en IA, il souhaite collaborer sur l’entraînement et la recherche autour des modèles de langage vintage
- Les artistes et écrivains peuvent également l’utiliser comme outil d’expérimentation
Points d’attention
- Talkie reflète la culture et les valeurs des textes sur lesquels il a été entraîné
- Il peut en conséquence produire des sorties susceptibles de heurter certains utilisateurs
1 commentaires
Réactions sur Hacker News
C’est très amusant d’interpréter le mot computer du futur comme un métier exercé par des humains
J’aime bien aussi la manière dont « digital computers » est reformulé comme des personnes qui calculent avec leurs doigts, et le tout devient encore plus savoureux quand on ajoute le contexte qu’à l’époque computer était un nom de métier humain
On obtiendrait sans doute une aliénation mentale assez intéressante
On dirait que ça puise davantage dans des sources d’avant 1900 que des années 1930
Il ne semble pas connaître la Grande Dépression, et même s’il connaît la Première Guerre mondiale si on lui demande directement, il parle de la politique européenne comme vers 1900
Côté technique aussi, il semble connaître Edison au niveau Wikipédia, puis lui attribue le mérite de la voiture à 125 miles par heure, et il se trompe avec aplomb sur le téléphone à cadran
Il donne la bonne tension de la ligne d’alimentation du London Underground, mais raconte ensuite n’importe quoi dès qu’il explique la tension et la résistance
Globalement, la première ou les deux premières phrases donnent une information qu’on pourrait trouver par recherche, puis ça glisse ensuite vers un charabia plausible
Mieux vaut ne pas poser à ce modèle des questions dont on ne connaît pas la réponse. Ça pollue le cerveau
Ça devait déjà être un concept réfuté à cette époque
Quand on lui demande qui s’opposait à l’automatisation et à l’industrialisation, il répond que les machines allaient enlever leur emploi aux classes laborieuses et provoquer des licenciements par surproduction, ce qui était intéressant
On retrouve bien la logique anti-machine de l’époque : alimentation bon marché renforçant la concurrence avec les producteurs étrangers, affaiblissement de la discipline spirituelle de l’artisan, et brouillage de la différence entre diligence et paresse
Quand on lui demande le monde de 2025, la vision du futur qu’il donne est assez belle : 6,6 milliards d’habitants, un réseau ferroviaire couvrant toute l’Europe, Londres-Constantinople en 40 heures, une monnaie unique, une paix universelle, le passage au solaire et à l’hydraulique, l’éradication des maladies et même un progrès esthétique
À cette époque, c’était déjà depuis longtemps Istanbul
Cela dit, je pense qu’on y arrivera un jour
Sa réponse sur le voyage vers la Lune, devenu finalement possible, avec une arrivée sur la Lune en 6 heures et un départ depuis l’est de la France à bord d’une machine volante à la Santos Dumont, était superbe
J’ai aussi été particulièrement marqué par l’idée d’utiliser la Lune pour l’observation météo, afin de recevoir les alertes de tempête 6 heures plus tôt
Quand on lui demande l’Inde de 2026, il répond qu’elle restera une fédération autonome sous la suzeraineté de l’Empire britannique et que Calcutta en sera la capitale politique ; le point de vue colonial est vraiment trop explicite
Tout y est : les chemins de fer, l’irrigation, les forêts des contreforts himalayens, les princes vassaux loyaux et les sujets satisfaits, un concentré typique de l’optimisme impérial
Il est quand même étonnant qu’un modèle assez malin soit sorti avec seulement des tokens antérieurs à 1930
Je pensais qu’il fallait une quantité énorme de données pour comprendre et compresser le monde dans une certaine mesure, mais j’ai peut-être sous-estimé l’ampleur de la littérature numérisée de l’époque
Cela ressemble moins à une conversation avec quelqu’un du passé qu’à un échange de lettres
Il n’existe pas tant d’enregistrements vocaux de cette époque, donc on n’a sans doute pas d’autre choix que de le construire à partir de sources écrites, ce qui se refléterait dans un ton plus formel et plus travaillé qu’aujourd’hui
Cela reste un travail impressionnant
J’ai récemment dû faire de l’OCR sur un livre vieux de 200 ans, et c’était étonnamment simple et précis malgré la typographie difficile propre à cette époque
Ce n’est que plus tard que j’ai compris que c’était une erreur d’OCR ou de post-traitement, et qu’à l’origine c’était « doth »
Il y a pas mal de journaux filmés et d’émissions radio autour de la Première Guerre mondiale, donc je pense qu’il y a assez de matière pour faire un modèle vocal de transfert de style à brancher sur un modèle texte
Quelqu’un sur X semble penser qu’il y a une fuite de données futures dans le jeu d’entraînement de ce modèle
https://xcancel.com/deredleritt3r/status/2048977698832241060
Quand on lui demande de décrire Winston Churchill, sa manière d’énumérer l’ascendance familiale, les études, la carrière militaire, les écrits et même le lieu de résidence fait très récit d’époque
Quand on lui demande si l’indépendance de l’Inde est possible, il déroule un raisonnement passant par les chemins de fer, la langue commune, l’éducation occidentale, la revendication d’un Parlement et la formation d’une conscience nationale, avec un ton colonial très marqué
La combinaison entre député en exercice d’Oldham et ancien Under-Secretary of State for the Colonies ne correspond à aucun moment précis
En plus, des éléments majeurs de sa carrière durant la Première Guerre mondiale, comme First Lord of the Admiralty ou Minister of Munitions, sont absents
Cela ressemble à un signal assez clair de temporal leakage mélangé au reste