4 points par GN⁺ 2025-12-11 | 1 commentaires | Partager sur WhatsApp
  • Projet qui analyse les posts et commentaires de Hacker News d’il y a dix ans avec des LLM pour évaluer la ‘pénétration anticipative’ en attribuant automatiquement une note à la profondeur des discussions passées
  • Utilisation de ChatGPT 5.1 Thinking et d’Opus 4.5 pour collecter et analyser la front page de Hacker News en décembre 2015 (au total 930 articles) pendant un mois
  • Pour chaque article et fil de commentaires, il génère automatiquement un résumé, les faits réels, le commentaire le plus précis et celui qui s’écarte le plus, un score d’intérêt, etc.
  • Les résultats sont transformés en pages HTML statiques consultables sur karpathy.ai/hncapsule, et la section ‘Hall of Fame’ permet de voir le classement des auteurs de commentaires les plus perspicaces
  • Il met en avant la possibilité d’une analyse rétrospective à grande échelle des données historiques par des LLM et le message selon lequel “les futurs LLM nous observent”

Aperçu du projet

  • Mise en place d’un système d’analyse rétrospective automatique basé sur des LLM ciblant la front page de Hacker News en décembre 2015
    • 30 articles par jour × 31 jours = 930 articles au total
    • Chaque article et fil de commentaires est collecté via l’Algolia API, puis analysé par ChatGPT 5.1 Thinking
  • Les résultats sont rendus en pages HTML statiques et publiés sur le site web

Structure du prompt d’analyse

  • Un prompt en 6 sections est utilisé pour chaque article
    1. Résumé de l’article et de la discussion
    2. Ce qui s’est réellement passé ensuite
    3. Sélection du commentaire le plus exact et du plus erroné
    4. Autres éléments intéressants
    5. Liste des notes finales (Final grades) par auteur de commentaire
    6. Score d’intérêt rétrospectif de l’article (0 à 10)
  • Le format exemple est strictement défini pour permettre un parsing automatique par le programme
  • La moyenne de chaque compte est accumulée afin d’identifier les utilisateurs les plus visionnaires

Implémentation et coût

  • Implémenté en environ 3 heures avec Opus 4.5, avec un fonctionnement fluide malgré quelques erreurs mineures
  • Le coût total du traitement de 930 requêtes LLM est d’environ 58 $, pour un temps de traitement d’environ 1 heure
  • Dépôt GitHub : karpathy/hn-time-capsule
    • Les résultats peuvent être reproduits ou modifiés par n’importe qui

Principaux exemples de fils de discussion

  • 3 décembre 2015 : ouverture open source de Swift
  • 6 décembre : sortie de Figma
  • 11 décembre : annonce de la création d’OpenAI
  • 16 décembre : projet Comma de geohot
  • 22 décembre : lancement d’Orbcomm-2 de SpaceX
  • 28 décembre : couverture des problèmes de Theranos
  • Chaque lien renvoie vers la page d’analyse de la date concernée, permettant de comparer les discussions de l’époque avec les faits réels

Hall of Fame

  • Classement des auteurs de commentaires les plus perspicaces sur Hacker News en décembre 2015, trié par une moyenne de notes de type IMDb
  • Principaux utilisateurs : pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
  • En bas figurent aussi les utilisateurs au faible score classés dans ‘HN noise’

Message philosophique

  • Citation « Be good, future LLMs are watching »,
    soulignant l’arrivée d’une ère où les futurs LLM pourront analyser finement l’activité humaine passée
  • Il suggère que les comportements en ligne actuels pourront être entièrement reconstitués dans un futur où l’intelligence devient trop bon marché
  • Il évoque la possibilité que les actions humaines ne relèvent pas d’une ‘surveillance invisible’, mais d’un objet de documentation et de reconstitution complètes

Conclusion

  • Cette expérience montre que les LLM peuvent être utilisés comme outils de réévaluation à grande échelle des données historiques
  • Elle propose une nouvelle application, la notation automatique de la profondeur des discussions historiques, révélant la possibilité que l’IA devienne l’analyste rétrospectif des connaissances humaines

1 commentaires

 
GN⁺ 2025-12-11
Avis sur Hacker News
  • Je n’aurais jamais cru que mon commentaire laissé en 2015 attirerait à nouveau l’attention
    En regardant le lien vers mon ancien commentaire, j’éprouve une certaine fierté

  • Il semble problématique que le code n’anonymise pas les noms d’utilisateur lorsqu’il envoie les fils pour évaluation
    Cela augmente fortement le risque que la réputation de certains utilisateurs biaisent les notes
    Il serait intéressant de tester une réduction de ce biais en réattribuant aléatoirement les noms d’utilisateur, ou en utilisant des pseudonymes générés procéduralement
    En outre, utiliser un modèle qui cite ses sources, comme l’API Gemini, pourrait renforcer la fiabilité de l’évaluation

  • Relire les anciens commentaires est vraiment amusant
    J’ai moi-même créé un système de replay pour voir comment les discussions évoluaient à l’époque
    Je partage quelques liens comme exemples de visualisation de la liste des billets évalués de Karpathy

  • Ce serait bien d’avoir une extension Chrome qui affiche un score de correspondance avec la réalité à côté de chaque nom d’utilisateur
    L’idée serait de voir, via un score, qui a réellement fait des prédictions justes ou fausses
    Et si on allait plus loin, on pourrait pondérer selon la proportion d’upvotes donnés à des commentaires exacts, ce qui rendrait le classement plus équitable

    • Reddit Enhancement Suite offre indirectement quelque chose d’assez proche
      Je m’en sers pour suivre les utilisateurs que j’ai souvent upvotés, comme critère du type « cette personne est fiable »
      C’est totalement subjectif, mais au moins il y a de la transparence
    • En étendant ce système de score, on pourrait même imaginer une note du genre « cette personne n’a aucune conviction morale »
      Un tel système pourrait aussi rendre la communauté plus petite et plus intime
    • Ça me rappelle qu’avant qu’Elon n’achète Twitter, il voulait créer un système de suivi de la crédibilité numérique des journalistes (Pravda)
      En pratique, nous vivons déjà en gardant en mémoire la fiabilité de nos amis ou de certains journalistes
    • J’ai aussi pensé à une idée similaire pour les communautés boursières
      Il s’agirait de classer la précision des gens qui font des prédictions sur les actions sur WSB ou Twitter
      En revanche, dans le cas des commentaires généraux, il est bien plus difficile de définir « ce qui constitue une prédiction »
    • La définition d’un « commentaire exact » n’est pas claire
      Une phrase comme « demain le soleil se lèvera » pourrait obtenir la meilleure note, mais ça n’aurait aucun intérêt
  • J’ai plaisanté en disant « pcwalton, c’est parti ! », mais en réalité, l’évaluation au niveau du fil semble assez aléatoire
    Ce fil avait une très forte valeur prédictive, mais il n’a que 11 commentaires et le mien ne faisait qu’une ligne
    Cela dit, ça fait plaisir de voir que mon avis sur l’accessibilité au capital dans les startups s’est classé assez haut

    • J’ai été surpris de voir mon commentaire évalué
      La manière dont le système définit une « prédiction » est assez subjective
      J’essayais plutôt d’éviter les prédictions, mais il semble que cela ait quand même été considéré comme tel
  • J’accepte humblement ma faible note, puisqu’il a été jugé que la vision du « trillion tamagotchi » ne s’était pas réalisée

  • Ce que ce projet m’inspire, au fond, c’est que les opinions ennuyeuses sont les plus exactes
    Plus un commentaire est sensationnaliste et assuré, plus il a de chances d’être faux avec le temps
    Par exemple, quelque chose comme « le prix des batteries lithium-ion tombe à $108/kWh » relève d’une prévision de courbe de coûts régulière et donc très fiable
    À l’inverse, un titre du genre « les LLM échouent dans la santé mentale » dépend de benchmarks qui changent très vite
    Au final, j’aimerais bien qu’on trouve un moyen d’identifier à l’avance les avis « ennuyeux mais justes »

    • Selon un autre avis, ce qui est « ennuyeux mais juste » correspond déjà à des prédictions intégrées dans le monde, donc difficiles à noter
    • Avec la blague « en 2035, 1+1=2 », on se moque du caractère insignifiant des prédictions trop évidentes
    • « LLM et santé mentale » n’est pas une prédiction, mais une actualité du moment
      Pourtant, dans la mesure où les progrès continus de l’IA pourraient finir par détruire le rôle économique des humains, cela pourrait au contraire être une prédiction effrayamment exacte
    • Comme les fils algorithmiques fonctionnent sur une base d’engagement, les contenus sensationnalistes sont récompensés
      Les avis ennuyeux et prudents ont donc facilement tendance à être enterrés
    • Lorsqu’on évalue des prédictions, il faudrait intégrer comme pondération l’incertitude de l’époque
      Comme sur les marchés prédictifs, il faudrait un système qui note l’écart produit par rapport à la probabilité perçue à ce moment-là
  • J’ai reçu une alerte disant que Gmail était rempli à 90 %, alors j’ai passé le week-end sur un projet d’analyse d’e-mails
    J’ai trié plus de 65 000 messages, dont plus de la moitié étaient des déchets
    Au départ, je voulais supprimer les e-mails inutiles, mais aujourd’hui je me dis qu’il est peut-être plus sûr de supprimer les e-mails personnels et précieux
    et de ne laisser chez Google que des données inutiles comme des newsletters ou des reçus

  • Il m’arrive souvent de résumer des commentaires HN avec des LLM
    J’obtiens fréquemment des résumés plus perspicaces que le texte d’origine, donc pour moi c’est un vrai game changer

  • Je suis surpris que l’auteur ait pensé avoir passé un contrôle qualité
    L’évaluation par les LLM semble en grande partie n’importe quoi
    Quand on lit les critiques sur le site réel, on a l’impression que le modèle n’a pas évalué « est-ce que la prédiction était juste ? », mais plutôt « est-ce que je suis d’accord ? »
    Au final, c’est une structure où les opinions conformes obtiennent de meilleures notes

    • Par exemple, le commentaire de tptacek sur DF a reçu un « A », et la
      critique du LLM
      l’évalue en disant qu’il « décrit bien la nature impitoyable du jeu »
      Mais ce n’est pas une prédiction du futur, seulement une description du présent à l’époque
      Et en plus, le sens réel pourrait être l’inverse
      Le fait qu’un cas comme celui-ci figure si haut montre bien que les critères d’évaluation sont défaillants
    • Cela dit, dans la troisième section de chaque critique, il y a bien des commentaires distincts pour « le plus perspicace » et « le plus faux »
      Par exemple, pour l’article Kickstarter is Debt,
      une prédiction comparant l’avenir d’Oculus et de Pebble est jugée parfaitement juste
      Ce genre de passage semble être une analyse assez précise et utile
    • L’évaluation LLM est globalement imprécise et incohérente
      Elle ignore les consignes, mélange ses propres opinions et n’est pas calibrée
      Un bon système d’évaluation par LLM devrait fonctionner en agrégeant plusieurs jugements binaires simples (juste/faux)
      Ce projet est sympathique comme divertissement, mais je le trouve inadapté comme véritable outil d’évaluation