Évaluer automatiquement les discussions de Hacker News d'il y a dix ans avec des LLM
(karpathy.bearblog.dev)- Projet qui analyse les posts et commentaires de Hacker News d’il y a dix ans avec des LLM pour évaluer la ‘pénétration anticipative’ en attribuant automatiquement une note à la profondeur des discussions passées
- Utilisation de ChatGPT 5.1 Thinking et d’Opus 4.5 pour collecter et analyser la front page de Hacker News en décembre 2015 (au total 930 articles) pendant un mois
- Pour chaque article et fil de commentaires, il génère automatiquement un résumé, les faits réels, le commentaire le plus précis et celui qui s’écarte le plus, un score d’intérêt, etc.
- Les résultats sont transformés en pages HTML statiques consultables sur karpathy.ai/hncapsule, et la section ‘Hall of Fame’ permet de voir le classement des auteurs de commentaires les plus perspicaces
- Il met en avant la possibilité d’une analyse rétrospective à grande échelle des données historiques par des LLM et le message selon lequel “les futurs LLM nous observent”
Aperçu du projet
- Mise en place d’un système d’analyse rétrospective automatique basé sur des LLM ciblant la front page de Hacker News en décembre 2015
- 30 articles par jour × 31 jours = 930 articles au total
- Chaque article et fil de commentaires est collecté via l’Algolia API, puis analysé par ChatGPT 5.1 Thinking
- Les résultats sont rendus en pages HTML statiques et publiés sur le site web
- Page des résultats : https://karpathy.ai/hncapsule/
- Les données brutes (
data.zip) sont également disponibles au même emplacement
Structure du prompt d’analyse
- Un prompt en 6 sections est utilisé pour chaque article
- Résumé de l’article et de la discussion
- Ce qui s’est réellement passé ensuite
- Sélection du commentaire le plus exact et du plus erroné
- Autres éléments intéressants
- Liste des notes finales (Final grades) par auteur de commentaire
- Score d’intérêt rétrospectif de l’article (0 à 10)
- Le format exemple est strictement défini pour permettre un parsing automatique par le programme
- La moyenne de chaque compte est accumulée afin d’identifier les utilisateurs les plus visionnaires
Implémentation et coût
- Implémenté en environ 3 heures avec Opus 4.5, avec un fonctionnement fluide malgré quelques erreurs mineures
- Le coût total du traitement de 930 requêtes LLM est d’environ 58 $, pour un temps de traitement d’environ 1 heure
- Dépôt GitHub : karpathy/hn-time-capsule
- Les résultats peuvent être reproduits ou modifiés par n’importe qui
Principaux exemples de fils de discussion
- 3 décembre 2015 : ouverture open source de Swift
- 6 décembre : sortie de Figma
- 11 décembre : annonce de la création d’OpenAI
- 16 décembre : projet Comma de geohot
- 22 décembre : lancement d’Orbcomm-2 de SpaceX
- 28 décembre : couverture des problèmes de Theranos
- Chaque lien renvoie vers la page d’analyse de la date concernée, permettant de comparer les discussions de l’époque avec les faits réels
Hall of Fame
- Classement des auteurs de commentaires les plus perspicaces sur Hacker News en décembre 2015, trié par une moyenne de notes de type IMDb
- Principaux utilisateurs : pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
- En bas figurent aussi les utilisateurs au faible score classés dans ‘HN noise’
Message philosophique
- Citation « Be good, future LLMs are watching »,
soulignant l’arrivée d’une ère où les futurs LLM pourront analyser finement l’activité humaine passée - Il suggère que les comportements en ligne actuels pourront être entièrement reconstitués dans un futur où l’intelligence devient trop bon marché
- Il évoque la possibilité que les actions humaines ne relèvent pas d’une ‘surveillance invisible’, mais d’un objet de documentation et de reconstitution complètes
Conclusion
- Cette expérience montre que les LLM peuvent être utilisés comme outils de réévaluation à grande échelle des données historiques
- Elle propose une nouvelle application, la notation automatique de la profondeur des discussions historiques, révélant la possibilité que l’IA devienne l’analyste rétrospectif des connaissances humaines
1 commentaires
Avis sur Hacker News
Je n’aurais jamais cru que mon commentaire laissé en 2015 attirerait à nouveau l’attention
En regardant le lien vers mon ancien commentaire, j’éprouve une certaine fierté
Il semble problématique que le code n’anonymise pas les noms d’utilisateur lorsqu’il envoie les fils pour évaluation
Cela augmente fortement le risque que la réputation de certains utilisateurs biaisent les notes
Il serait intéressant de tester une réduction de ce biais en réattribuant aléatoirement les noms d’utilisateur, ou en utilisant des pseudonymes générés procéduralement
En outre, utiliser un modèle qui cite ses sources, comme l’API Gemini, pourrait renforcer la fiabilité de l’évaluation
Relire les anciens commentaires est vraiment amusant
J’ai moi-même créé un système de replay pour voir comment les discussions évoluaient à l’époque
Je partage quelques liens comme exemples de visualisation de la liste des billets évalués de Karpathy
Les différences d’opinion entre le matin et le soir semblent assez marquées, donc ce serait intéressant de le vérifier en chiffres
Ce serait bien d’avoir une extension Chrome qui affiche un score de correspondance avec la réalité à côté de chaque nom d’utilisateur
L’idée serait de voir, via un score, qui a réellement fait des prédictions justes ou fausses
Et si on allait plus loin, on pourrait pondérer selon la proportion d’upvotes donnés à des commentaires exacts, ce qui rendrait le classement plus équitable
Je m’en sers pour suivre les utilisateurs que j’ai souvent upvotés, comme critère du type « cette personne est fiable »
C’est totalement subjectif, mais au moins il y a de la transparence
Un tel système pourrait aussi rendre la communauté plus petite et plus intime
En pratique, nous vivons déjà en gardant en mémoire la fiabilité de nos amis ou de certains journalistes
Il s’agirait de classer la précision des gens qui font des prédictions sur les actions sur WSB ou Twitter
En revanche, dans le cas des commentaires généraux, il est bien plus difficile de définir « ce qui constitue une prédiction »
Une phrase comme « demain le soleil se lèvera » pourrait obtenir la meilleure note, mais ça n’aurait aucun intérêt
J’ai plaisanté en disant « pcwalton, c’est parti ! », mais en réalité, l’évaluation au niveau du fil semble assez aléatoire
Ce fil avait une très forte valeur prédictive, mais il n’a que 11 commentaires et le mien ne faisait qu’une ligne
Cela dit, ça fait plaisir de voir que mon avis sur l’accessibilité au capital dans les startups s’est classé assez haut
La manière dont le système définit une « prédiction » est assez subjective
J’essayais plutôt d’éviter les prédictions, mais il semble que cela ait quand même été considéré comme tel
J’accepte humblement ma faible note, puisqu’il a été jugé que la vision du « trillion tamagotchi » ne s’était pas réalisée
Ce que ce projet m’inspire, au fond, c’est que les opinions ennuyeuses sont les plus exactes
Plus un commentaire est sensationnaliste et assuré, plus il a de chances d’être faux avec le temps
Par exemple, quelque chose comme « le prix des batteries lithium-ion tombe à $108/kWh » relève d’une prévision de courbe de coûts régulière et donc très fiable
À l’inverse, un titre du genre « les LLM échouent dans la santé mentale » dépend de benchmarks qui changent très vite
Au final, j’aimerais bien qu’on trouve un moyen d’identifier à l’avance les avis « ennuyeux mais justes »
Pourtant, dans la mesure où les progrès continus de l’IA pourraient finir par détruire le rôle économique des humains, cela pourrait au contraire être une prédiction effrayamment exacte
Les avis ennuyeux et prudents ont donc facilement tendance à être enterrés
Comme sur les marchés prédictifs, il faudrait un système qui note l’écart produit par rapport à la probabilité perçue à ce moment-là
J’ai reçu une alerte disant que Gmail était rempli à 90 %, alors j’ai passé le week-end sur un projet d’analyse d’e-mails
J’ai trié plus de 65 000 messages, dont plus de la moitié étaient des déchets
Au départ, je voulais supprimer les e-mails inutiles, mais aujourd’hui je me dis qu’il est peut-être plus sûr de supprimer les e-mails personnels et précieux
et de ne laisser chez Google que des données inutiles comme des newsletters ou des reçus
Il m’arrive souvent de résumer des commentaires HN avec des LLM
J’obtiens fréquemment des résumés plus perspicaces que le texte d’origine, donc pour moi c’est un vrai game changer
Je suis surpris que l’auteur ait pensé avoir passé un contrôle qualité
L’évaluation par les LLM semble en grande partie n’importe quoi
Quand on lit les critiques sur le site réel, on a l’impression que le modèle n’a pas évalué « est-ce que la prédiction était juste ? », mais plutôt « est-ce que je suis d’accord ? »
Au final, c’est une structure où les opinions conformes obtiennent de meilleures notes
critique du LLM
l’évalue en disant qu’il « décrit bien la nature impitoyable du jeu »
Mais ce n’est pas une prédiction du futur, seulement une description du présent à l’époque
Et en plus, le sens réel pourrait être l’inverse
Le fait qu’un cas comme celui-ci figure si haut montre bien que les critères d’évaluation sont défaillants
Par exemple, pour l’article Kickstarter is Debt,
une prédiction comparant l’avenir d’Oculus et de Pebble est jugée parfaitement juste
Ce genre de passage semble être une analyse assez précise et utile
Elle ignore les consignes, mélange ses propres opinions et n’est pas calibrée
Un bon système d’évaluation par LLM devrait fonctionner en agrégeant plusieurs jugements binaires simples (juste/faux)
Ce projet est sympathique comme divertissement, mais je le trouve inadapté comme véritable outil d’évaluation