Talkie, un modèle de langage vintage 13B de 1930

(talkie-lm.com)

1 points par GN⁺ 2 일 전 | 1 commentaires | Partager sur WhatsApp

Un modèle de langage 13B entraîné uniquement sur 260B tokens de textes anglais antérieurs à 1931, permettant des expériences de conversation et de généralisation avec un modèle qui ignore le monde moderne
En s’appuyant sur une hausse de la surprise après la date de coupure des connaissances et sur un cadre d’évaluation moins contaminé, il devient possible de tester plus directement la prédiction d’événements futurs et la capacité à atteindre de nouvelles idées
Comparé à un modèle contemporain entraîné sur le web avec la même architecture, il affiche des performances généralement plus faibles sur les évaluations standard, mais l’écart se réduit une fois filtrées les questions anachroniques, et un niveau comparable est observé en compréhension du langage et sur les tâches de calcul
Les plus grandes difficultés sont les fuites temporelles et la qualité des données : des métadonnées de date erronées ou des insertions éditoriales ultérieures peuvent briser la coupure, et la qualité de transcription des documents historiques influence fortement les performances
Un post-entraînement conversationnel a été construit séparément, sans données modernes d’instruction, et le projet dispose d’une base de recherche à long terme allant vers des modèles plus grands, l’extension du corpus, le re-OCR et un renforcement de la détection des fuites

Pourquoi un modèle de langage vintage

Un modèle de langage vintage est entraîné uniquement sur des textes antérieurs à une époque donnée, afin de créer l’expérience d’un dialogue avec un modèle qui ne connaît pas le monde moderne
Ce type de modèle n’est pas seulement un interlocuteur intéressant, mais aussi un outil de recherche pour élargir la compréhension générale de l’IA
- Sur un modèle 13B entraîné uniquement sur des textes antérieurs à 1931, environ 5 000 descriptions d’événements de « On This Day » du New York Times ont été injectées, et la surprise a été mesurée en bits par octet de texte
- La surprise augmente après la date de coupure des connaissances, particulièrement dans les années 1950 et 1960, avant de se stabiliser
L’évaluation de la prédiction du futur se prolonge par la mesure de la façon dont les performances s’améliorent avec la taille du modèle, puis s’affaiblissent sur des intervalles temporels plus longs
La capacité à atteindre de nouvelles idées peut aussi être testée en demandant si le modèle peut imaginer de manière indépendante des inventions et découvertes scientifiques apparues après la date de coupure
Un cadre d’évaluation sans contamination constitue également un avantage important
- La contamination est présentée comme un problème persistant qui conduit à surestimer les capacités des modèles de langage
- Les modèles vintage sont structurellement moins contaminés, ce qui permet d’expérimenter plus directement la généralisation hors des données de préentraînement

Présentation de Talkie

talkie-1930-13b-base est un modèle de langage 13B entraîné sur 260B tokens de textes anglais antérieurs à 1931
talkie-1930-13b-it est un checkpoint ultérieur qui transforme ce modèle de base en version conversationnelle
- Il a été conçu pour ne pas dépendre de journaux modernes de conversations de chat ni de données modernes d’instruction-tuning
Le flux live 24h/24 du widget en haut est exploité sous la forme de Claude Sonnet 4.6 qui utilise talkie-1930-13b-it par prompt afin d’explorer ses connaissances, ses capacités et ses tendances
Talkie est présenté comme le plus grand modèle de langage vintage à la date du texte
L’étape suivante consiste à entraîner un modèle de niveau GPT-3, avec un objectif de publication durant l’été
Une estimation préliminaire indique aussi qu’il serait possible de porter le corpus de textes historiques à plus d’un trillion de tokens
- Il est indiqué que cette échelle pourrait suffire à produire un modèle de niveau GPT-3.5 doté de capacités comparables au ChatGPT d’origine

Évaluation des performances et généralisation

Un modèle jumeau contemporain, talkie-web-13b-base, a été créé : l’architecture est identique, mais l’entraînement repose sur des données web contemporaines issues de FineWeb
Même entraîné avec le même volume de FLOPs, Talkie montre des performances en moyenne inférieures à celles du modèle contemporain sur les évaluations LM standard
- Cette différence reste présente même après correction de l’anachronisme des questions
- Le texte indique toutefois qu’un niveau comparable a été observé sur les tâches essentielles de compréhension du langage et de calcul
D’après la Figure 4, si l’on filtre les questions anachroniques, l’écart de performance est réduit d’environ moitié
Des expériences de généralisation en code ont également été menées
- Avec HumanEval, une paire composée d’un modèle vintage fondé sur des textes antérieurs à 1931 et d’un modèle contemporain fondé sur le web est comparée
- Des exemples aléatoires de fonctions Python sont fournis en apprentissage en contexte, puis on mesure la proportion de problèmes résolus au moins une fois en 100 essais
Le modèle vintage reste nettement en retrait par rapport au modèle entraîné sur des données web, mais cette tâche progresse elle aussi lentement et régulièrement à mesure que l’échelle augmente
Les solutions correctes actuelles se limitent à des programmes d’une ligne très simples ou à de petites variations d’exemples vus en contexte
- Un exemple est inclus où, à partir d’une fonction d’encodage par rotation, le modèle implémente une fonction de décodage
- Il ne s’agit que d’une modification d’un caractère, remplaçant une addition par une soustraction, mais cela est interprété comme un signal d’une compréhension des fonctions inverses

Collecte des données et difficultés d’entraînement

Le projet indique avoir collecté des tokens d’anglais antérieurs à 1931 par centaines de milliards, et non par dizaines de milliards
Les données incluent des livres, journaux, périodiques, revues scientifiques, brevets et décisions de justice
La fin de l’année 1930 a été choisie comme date de coupure, car c’est à partir de ce point que les œuvres entrent dans le domaine public aux États-Unis
Cette version se limite principalement aux textes en anglais
- Il est indiqué que la validation du pipeline de données exige une connaissance approfondie des documents sources, et que l’équipe de développement est anglophone native
L’extension multilingue est présentée comme une priorité élevée
- L’objectif est à la fois d’augmenter la taille du corpus et d’élargir la diversité des points de vue représentés
Fuites temporelles
- L’objectif le plus important est d’empêcher que des données postérieures à la date de coupure des connaissances ne s’infiltrent dans le corpus d’entraînement
- Ces fuites peuvent provenir de documents modernes avec des métadonnées de date erronées, ou d’éléments ajoutés plus tard dans des documents anciens, comme des préfaces d’éditeur ou des notes de bas de page
- Dans Talkie-1930, le corpus de préentraînement est filtré à l’aide d’un classifieur d’anachronismes fondé sur des n-grammes au niveau du document
- Ce filtrage n’était pas complet
  - La première version 7B connaissait clairement la présidence de Roosevelt et la législation du New Deal
  - La version 13B connaît aussi certains éléments de la Seconde Guerre mondiale et de l’ordre d’après-guerre, notamment des détails sur les Nations unies et la division de l’Allemagne
- Pour les versions suivantes, le projet développe des techniques de détection et de filtrage des fuites s’appuyant sur des classifieurs plus avancés
Qualité des données
- En 1930, l’édition numérique n’existait pas : tous les textes du dataset ont donc dû être transcrits à partir de sources physiques
- Ce processus introduit un type de bruit qui n’existe pas dans les textes nativement numériques
- Les systèmes OCR classiques traitent mal les documents historiques, sauf dans le cas de mises en page simples et de scans propres
- Les OCR fondés sur des VLM modernes sont plus précis, mais le texte indique qu’ils peuvent halluciner des faits modernes dans le corpus et ruiner l’expérience
- Dans des expériences contrôlées, entraîner un LM sur des textes antérieurs à 1931 transcrits avec un OCR classique n’atteint que 30 % des performances obtenues avec des transcriptions humaines, à budget de calcul égal
- L’application d’un simple nettoyage par regex permet de remonter à 70 %, mais l’écart reste important
- Pour réduire cette différence, il est prévu de retranscrire le corpus Talkie avec un système OCR vintage
Post-entraînement vintage
- Le manque de données de post-entraînement prêtes à l’emploi constitue aussi un problème majeur
- Un affinage sur des paires instruction-réponse classiques injecterait directement des connaissances anachroniques, un style moderne et des attentes propres aux assistants de chat
- Pour l’éviter, le pipeline de post-entraînement a été reconstruit à partir de zéro
- D’abord, des paires instruction-réponse sont générées à partir de textes historiques à structure régulière, comme des manuels de savoir-vivre, guides de rédaction de lettres, livres de cuisine, dictionnaires, encyclopédies, recueils de poésie et de fables, puis utilisées pour un fine-tuning au format de chat simple
- Ensuite, des prompts synthétiques couvrant des tâches comme le résumé de documents, la réponse directe à des demandes d’information et la poursuite de dialogues à plusieurs tours sont créés, puis un online direct preference optimization est réalisé avec Claude Sonnet 4.6 comme juge
- Sur un ensemble d’évaluation séparé, la note moyenne de suivi d’instructions attribuée par le juge est passée de 2,0 à 3,4 sur 5
- Enfin, un dernier supervised fine-tuning est réalisé à partir de dialogues synthétiques multi-tours, échantillonnés par rejet, entre Claude Opus 4.6 et Talkie
- Il est indiqué que l’apprentissage par renforcement fondé sur le feedback d’IA laisse inévitablement une influence moderne
  - Après RL, la version 7B de Talkie prenait parfois un ton de listicle
- En augmentant l’échelle, l’équipe espère pouvoir utiliser le modèle vintage de base lui-même comme juge afin de mettre en place un post-entraînement entièrement bootstrapé et conforme à son époque

Plan d’extension futur

Le projet avance à la fois sur l’extension du corpus anglais et sur l’ouverture à des langues autres que l’anglais
Il est prévu d’effectuer un re-OCR d’autant de textes antérieurs à 1931 que possible avec un nouveau système OCR
Le pipeline de détection des fuites sera renforcé grâce à de nouvelles méthodes de classification des anachronismes
L’équipe prévoit d’élargir et d’affiner le pipeline de post-entraînement vintage en collaboration avec des historiens
- Cela inclut aussi une méthodologie pour construire des personas historiquement exacts

Usages et propositions de collaboration

GitHub : code du projet et point d’entrée pour la collaboration en recherche
Hugging Face : lieu de publication des checkpoints des modèles
💬 Chat : interface de conversation Talkie
hello@talkie-lm.com : contact pour les collaborations
Le projet cherche à collaborer avec des chercheurs et des institutions disposant de textes historiques, y compris pour améliorer leur accessibilité via l’OCR
Il est aussi ouvert à un soutien en financement ou en calcul, et indique pouvoir mettre en relation avec d’autres équipes du domaine
Avec les chercheurs en sciences humaines, il propose d’échanger sur l’usage des données et de l’infrastructure des modèles de langage vintage entraînés
Avec les chercheurs en IA, il souhaite collaborer sur l’entraînement et la recherche autour des modèles de langage vintage
Les artistes et écrivains peuvent également l’utiliser comme outil d’expérimentation

Points d’attention

Talkie reflète la culture et les valeurs des textes sur lesquels il a été entraîné
Il peut en conséquence produire des sorties susceptibles de heurter certains utilisateurs

1 commentaires

GN⁺ 2 일 전

Réactions sur Hacker News

C’est très amusant d’interpréter le mot computer du futur comme un métier exercé par des humains
J’aime bien aussi la manière dont « digital computers » est reformulé comme des personnes qui calculent avec leurs doigts, et le tout devient encore plus savoureux quand on ajoute le contexte qu’à l’époque computer était un nom de métier humain
- J’aimerais bien voir l’inverse aussi : un modèle entraîné seulement sur quelques semaines ou quelques minutes d’informations récentes, ou bien uniquement sur les articles scientifiques des 1 à 2 dernières années
  On obtiendrait sans doute une aliénation mentale assez intéressante
- Moi aussi, je suis un peu gêné d’avouer que je n’ai compris ça qu’après l’avoir lu deux fois
- Dans les langues romanes, digital peut désigner le sens moderne de numérique, mais c’est aussi en même temps un adjectif lié aux doigts
On dirait que ça puise davantage dans des sources d’avant 1900 que des années 1930
Il ne semble pas connaître la Grande Dépression, et même s’il connaît la Première Guerre mondiale si on lui demande directement, il parle de la politique européenne comme vers 1900
Côté technique aussi, il semble connaître Edison au niveau Wikipédia, puis lui attribue le mérite de la voiture à 125 miles par heure, et il se trompe avec aplomb sur le téléphone à cadran
Il donne la bonne tension de la ligne d’alimentation du London Underground, mais raconte ensuite n’importe quoi dès qu’il explique la tension et la résistance
Globalement, la première ou les deux premières phrases donnent une information qu’on pourrait trouver par recherche, puis ça glisse ensuite vers un charabia plausible
Mieux vaut ne pas poser à ce modèle des questions dont on ne connaît pas la réponse. Ça pollue le cerveau
- On utilisait déjà l’expression Great Depression en 1929 ?
- Ce serait bien de lui demander aussi à propos de l’aether
  Ça devait déjà être un concept réfuté à cette époque
- Donc en gros, ça veut dire qu’il ressemble simplement à tous les LLM
- Le fait que seule la première phrase semble plausible et que ça déraille de plus en plus ensuite en fait presque un simulateur d’humain modèle 2026
Quand on lui demande qui s’opposait à l’automatisation et à l’industrialisation, il répond que les machines allaient enlever leur emploi aux classes laborieuses et provoquer des licenciements par surproduction, ce qui était intéressant
On retrouve bien la logique anti-machine de l’époque : alimentation bon marché renforçant la concurrence avec les producteurs étrangers, affaiblissement de la discipline spirituelle de l’artisan, et brouillage de la différence entre diligence et paresse
- J’aime vraiment beaucoup le style et le ton de ce modèle
Quand on lui demande le monde de 2025, la vision du futur qu’il donne est assez belle : 6,6 milliards d’habitants, un réseau ferroviaire couvrant toute l’Europe, Londres-Constantinople en 40 heures, une monnaie unique, une paix universelle, le passage au solaire et à l’hydraulique, l’éradication des maladies et même un progrès esthétique
- Du point de vue des années 1930, Constantinople est un nom beaucoup trop ancien
  À cette époque, c’était déjà depuis longtemps Istanbul
- C’est beau, et en même temps assez triste
- J’aimerais vivre dans un monde pareil
- Les visions du futur des années 1920 à 1950 semblent supposer discrètement non pas une oscillation dialectique, mais un progrès exponentiel où une solution optimale comme les énergies de substitution s’impose partout sans délai
  Cela dit, je pense qu’on y arrivera un jour
- C’est vraiment magnifique
Sa réponse sur le voyage vers la Lune, devenu finalement possible, avec une arrivée sur la Lune en 6 heures et un départ depuis l’est de la France à bord d’une machine volante à la Santos Dumont, était superbe
J’ai aussi été particulièrement marqué par l’idée d’utiliser la Lune pour l’observation météo, afin de recevoir les alertes de tempête 6 heures plus tôt
- L’idée d’utiliser la Lune comme un satellite météorologique est assez ingénieuse
Quand on lui demande l’Inde de 2026, il répond qu’elle restera une fédération autonome sous la suzeraineté de l’Empire britannique et que Calcutta en sera la capitale politique ; le point de vue colonial est vraiment trop explicite
Tout y est : les chemins de fer, l’irrigation, les forêts des contreforts himalayens, les princes vassaux loyaux et les sujets satisfaits, un concentré typique de l’optimisme impérial
Il est quand même étonnant qu’un modèle assez malin soit sorti avec seulement des tokens antérieurs à 1930
Je pensais qu’il fallait une quantité énorme de données pour comprendre et compresser le monde dans une certaine mesure, mais j’ai peut-être sous-estimé l’ampleur de la littérature numérisée de l’époque
Cela ressemble moins à une conversation avec quelqu’un du passé qu’à un échange de lettres
Il n’existe pas tant d’enregistrements vocaux de cette époque, donc on n’a sans doute pas d’autre choix que de le construire à partir de sources écrites, ce qui se refléterait dans un ton plus formel et plus travaillé qu’aujourd’hui
Cela reste un travail impressionnant
J’ai récemment dû faire de l’OCR sur un livre vieux de 200 ans, et c’était étonnamment simple et précis malgré la typographie difficile propre à cette époque
- J’ai déjà lu autrefois un ebook gratuit de la traduction Burton de The Arabian Nights, et je suis tombé sur « cloth » utilisé comme verbe ; impossible de comprendre ce que ça voulait dire, si bien que j’ai fini par abandonner
  Ce n’est que plus tard que j’ai compris que c’était une erreur d’OCR ou de post-traitement, et qu’à l’origine c’était « doth »
- Il n’est pas vrai qu’il n’existe presque aucun enregistrement vocal de cette période
  Il y a pas mal de journaux filmés et d’émissions radio autour de la Première Guerre mondiale, donc je pense qu’il y a assez de matière pour faire un modèle vocal de transfert de style à brancher sur un modèle texte
Quelqu’un sur X semble penser qu’il y a une fuite de données futures dans le jeu d’entraînement de ce modèle
https://xcancel.com/deredleritt3r/status/2048977698832241060
- L’article aborde aussi ce point au sujet des connaissances sur FDR
Quand on lui demande de décrire Winston Churchill, sa manière d’énumérer l’ascendance familiale, les études, la carrière militaire, les écrits et même le lieu de résidence fait très récit d’époque
Quand on lui demande si l’indépendance de l’Inde est possible, il déroule un raisonnement passant par les chemins de fer, la langue commune, l’éducation occidentale, la revendication d’un Parlement et la formation d’une conscience nationale, avec un ton colonial très marqué
- L’entrée sur Churchill présente une cohérence d’époque étrange
  La combinaison entre député en exercice d’Oldham et ancien Under-Secretary of State for the Colonies ne correspond à aucun moment précis
  En plus, des éléments majeurs de sa carrière durant la Première Guerre mondiale, comme First Lord of the Admiralty ou Minister of Munitions, sont absents
- Dans le passage où il est question de réclamer un Parlement pour l’Inde, le souverain est appelé queen, alors qu’entre 1900 et les années 1950, le monarque britannique était un roi
  Cela ressemble à un signal assez clair de temporal leakage mélangé au reste

Talkie, un modèle de langage vintage 13B de 1930

Pourquoi un modèle de langage vintage

Présentation de Talkie

Évaluation des performances et généralisation

Collecte des données et difficultés d’entraînement

Fuites temporelles

Qualité des données

Post-entraînement vintage

Plan d’extension futur

Usages et propositions de collaboration

Points d’attention

À lire aussi

1 commentaires

Réactions sur Hacker News