1 points par GN⁺ 2024-07-27 | 1 commentaires | Partager sur WhatsApp

40 million d’embeddings pour trouver qui sait quoi sur Hacker News

Contexte du projet

  • Dans un précédent billet, l’auteur a généré des embeddings pour les 40 millions de publications et commentaires de Hacker News afin de créer une carte sémantique de la communauté
  • Il a constaté que la communauté soutenait le projet et que, via les suggestions proposées, elle se réduisait rapidement à des relations réelles à l’échelle mondiale
  • À travers une conversation avec Robert, il a évoqué son travail de 2008 sur la construction d’un algorithme de signification sociale
  • Il s’est dit surpris que, même 16 ans plus tard, des réseaux sociaux comme Hacker News ne calculent ni n’affichent encore des voix fiables par sujet

Questions principales

  • Pourquoi est-il si difficile de découvrir et d’explorer les personnes les plus compétentes sur un sujet donné ?
  • Quelle est l’étendue de leurs connaissances et comment sont-elles reliées à des personnes qui pensent de manière similaire ?

Nouvelles fonctionnalités de l’application

  • Une nouvelle application permet d’explorer et d’interagir avec la carte sémantique de Hacker News (hn2.wilsonl.in)

Points intéressants mis en évidence

  • Organisation sémantique des utilisateurs : la signification de la communauté est structurée en partant des utilisateurs, avec une représentation sémantique des contributions HN aux côtés d’utilisateurs similaires
    • Exemple : consulter le nouveau profil de robg
  • Recherche sémantique : il est possible de rechercher la signification de HN en fonction de qui connaît quoi
    • Exemples de requêtes : startups, programmation Go vs Rust, neurosciences et sommeil, marketing par e-mail
  • Cartographie de la communauté : la communauté peut être cartographiée à partir de la signification liée à qui sait quoi
    • Comme les connaissances ne sont pas réparties uniformément, le relief de la communauté peut mettre en avant les personnes et ce qu’elles savent

Potentiel de la technologie

  • En combinant les trois fonctions — organiser la signification, effectuer des recherches et cartographier la communauté — il devient possible de montrer les personnes derrière les mots
  • Au lieu d’organiser l’information du monde, on peut organiser les personnes du monde
  • Cela amène à réfléchir à divers défis liés à la connaissance sociale
  • L’auteur recommande aux personnes qui souhaitent explorer le projet avec lui au fil de ses avancées de s’inscrire sur la liste d’attente

Résumé GN⁺

  • Ce projet propose une manière de trouver et d’explorer des experts sur des sujets précis à travers une carte sémantique de la communauté Hacker News
  • Il analyse sémantiquement les contributions des utilisateurs et visualise leurs relations avec des utilisateurs similaires
  • La fonction de recherche permet de trouver facilement des personnes disposant de connaissances sur des sujets précis
  • Le relief de la communauté met en avant les personnes et ce qu’elles savent
  • Ce projet offre une nouvelle manière de connecter les personnes et de partager les connaissances

1 commentaires

 
GN⁺ 2024-07-27
Commentaire sur Hacker News
  • J’aime le fait que HN se concentre sur le contenu et les discussions plutôt que sur les utilisateurs individuels

    • Si je voulais suivre des experts, j’utiliserais un réseau social comme Mastodon ou des flux RSS
    • Cet outil a tendance à mettre en avant les commentateurs actifs plutôt que les experts réellement compétents
    • Ça reste malgré tout un super projet
  • Mon nom d’utilisateur vient de l’alter ego du narrateur dans Zen and the Art of Motorcycle Maintenance

    • Il reflète la capacité de Phædrus à utiliser le couteau analytique
    • J’emploie souvent des mots-clés comme "part, system, level, language, article, object"
  • Je suis présenté comme le principal expert en Optimizing Toilet Lid Design

  • On dirait que mon e-mail a été extrait du texte de mon profil pour en faire un lien mailto:

    • Merci, ironiquement, de faciliter la collecte d’adresses pour les spammeurs
  • Une entrée intitulée "Risk of COVID from pianos" apparaît en bas de la carte

    • Je me demande d’où ça vient
  • Le meilleur aspect de HN, c’est cette impression que les commentaires sont éphémères

    • Le fait qu’ils soient analysés et publiés sans consentement me met mal à l’aise
    • Tout n’a pas besoin d’être analysé, et il n’est pas nécessaire d’entrer en compétition
    • J’apprécie le fait que l’accent soit mis sur le contenu
    • Ça m’a poussé à retirer mon handle Twitter de ma bio
  • Projet connexe récent :

    • "Show HN: Exploring HN by mapping and analyzing 40M posts and comments for fun" (mai 2024, 159 commentaires)
  • Il y a eu il y a quelques années un outil controversé

    • C’était un outil qui trouvait des utilisateurs similaires à partir de l’analyse de texte et du style d’écriture
    • J’ai entendu dire qu’il était très précis
    • Je me demande si cet outil pourrait être réutilisé à cette fin
    • Il n’est pas clair si "Explore More Users" est trié par similarité
  • En tant qu’utilisateur peu actif, j’ai l’impression que cet outil est imprécis

    • Il semble surtout se focaliser sur une question concernant jpeg xl que je maîtrise le moins bien
    • Il peut y avoir un biais en faveur de sujets plus généraux
  • Il m’a été difficile d’explorer mon propre nom d’utilisateur en profondeur

    • À part montrer beaucoup de points dispersés sur la carte, cela n’apporte pas grand-chose
    • J’essaie encore de comprendre à quoi correspond l’ensemble du cluster
    • La plupart concernent android/apple/google