1 points par GN⁺ 2024-11-14 | 1 commentaires | Partager sur WhatsApp

Visualisation de 13 millions d'utilisateurs de Bluesky

  • Comparaison entre Twitter et Bluesky

    • Twitter est une grande plateforme avec une base d'utilisateurs massive et de nombreuses facettes.
    • La base d'utilisateurs de Bluesky a fortement augmenté ces derniers mois, notamment en raison de l'hostilité persistante envers Twitter et de l'interdiction de Twitter au Brésil.
    • Il est possible de visualiser l'ensemble du réseau à partir des données de Bluesky.
  • Collecte des données

    • Bluesky repose sur le protocole AT et est conçu pour permettre l'auto-hébergement des données via des serveurs de données personnels (PDS).
    • Dans ce projet, les événements en temps réel sont collectés via le WebSocket de bsky.network, puis stockés dans une base de données SQLite.
  • Rendu du graphe

    • Rendre un graphe de 13 millions de nœuds et 500 millions d'arêtes est une tâche complexe.
    • Le graphe est visualisé à l'aide d'un algorithme de disposition dirigée par les forces, comparable à une simulation physique.
    • L'optimisation de Barnes-Hut est utilisée pour réduire la complexité des calculs.
  • Moteur Andromeda

    • Il s'agit d'un moteur multithread développé en Zig, avec une interface graphique construite à l'aide de GTK4 et OpenGL.
    • Il s'inspire de Gephi et de l'article sur ForceAtlas2, en mettant l'accent sur l'interactivité pour la visualisation de graphes à grande échelle.
  • Réduction de dimension avec UMAP

    • UMAP fait partie des algorithmes les plus performants pour la visualisation en deux dimensions.
    • Des embeddings de nœuds sont utilisés comme entrée d'UMAP afin d'obtenir une meilleure visualisation.
    • Lors de l'étape finale d'UMAP, un graphe dirigé par les forces est utilisé pour ajuster les distances entre les nœuds.
  • Ajout des couleurs

    • Un algorithme de clustering est appliqué à la sortie d'UMAP pour ajouter des couleurs.
    • Le clustering k-means est utilisé pour attribuer une teinte à chaque cluster, puis la luminosité est ajustée selon le nombre de followers de chaque nœud.
  • Résultats et projets futurs

    • La visualisation montre clairement la densité et la structure des grands clusters.
    • Parmi les fonctionnalités prévues, une barre latérale devrait afficher la timeline des comptes actuellement visibles à l'écran.

1 commentaires

 
GN⁺ 2024-11-14
Avis sur Hacker News
  • Le fil BSKY ne s’active pas, ce qui fait perdre l’intérêt. Par rapport aux débuts de Twitter, un nouveau réseau social devrait être plus dynamique
  • Bluesky et atproto ont été conçus pour être bidouillables. La communauté a construit un répertoire consultable des « Starter Packs » de Bluesky
    • Dan Abramov a salué ce projet et a mentionné que le fait que les entreprises sociales aient fermé leurs API a freiné le web public
  • Bluesky connaît une croissance rapide dans certains domaines. Les conversations sur Twitter ayant perdu de leur valeur, des utilisateurs ont migré vers Bluesky, et l’activité récente augmente
  • Certains s’attendent à ce que Bluesky devienne une version de gauche de « Truth Social ». Ils pensent qu’il sera difficile d’en faire une marque mondiale
  • L’API de BlueSky est jugée excellente. Un collègue a réalisé une visualisation en s’appuyant dessus
  • En tant qu’utilisateur ayant migré vers Bluesky, on se dit satisfait. Bluesky ressemble au Twitter de 2015, mais sans publicité ni growth hacking
  • La visualisation de Bluesky est jugée efficace pour transmettre l’information et visuellement attrayante
  • Il est appréciable de pouvoir utiliser un domaine comme nom d’utilisateur sur Bluesky. La vérification a ainsi plus de sens
  • BlueSky est actuellement dans une phase positive, et il est recommandé de créer un compte
  • On ne peut pas injecter directement la matrice BlueSky dans UMAP, mais on peut dériver des embeddings utilisateurs avec d’autres techniques