Visualisation de 13 millions d'utilisateurs de Bluesky
(joelgustafson.com)Visualisation de 13 millions d'utilisateurs de Bluesky
-
Comparaison entre Twitter et Bluesky
- Twitter est une grande plateforme avec une base d'utilisateurs massive et de nombreuses facettes.
- La base d'utilisateurs de Bluesky a fortement augmenté ces derniers mois, notamment en raison de l'hostilité persistante envers Twitter et de l'interdiction de Twitter au Brésil.
- Il est possible de visualiser l'ensemble du réseau à partir des données de Bluesky.
-
Collecte des données
- Bluesky repose sur le protocole AT et est conçu pour permettre l'auto-hébergement des données via des serveurs de données personnels (PDS).
- Dans ce projet, les événements en temps réel sont collectés via le WebSocket de
bsky.network, puis stockés dans une base de données SQLite.
-
Rendu du graphe
- Rendre un graphe de 13 millions de nœuds et 500 millions d'arêtes est une tâche complexe.
- Le graphe est visualisé à l'aide d'un algorithme de disposition dirigée par les forces, comparable à une simulation physique.
- L'optimisation de Barnes-Hut est utilisée pour réduire la complexité des calculs.
-
Moteur Andromeda
- Il s'agit d'un moteur multithread développé en Zig, avec une interface graphique construite à l'aide de GTK4 et OpenGL.
- Il s'inspire de Gephi et de l'article sur ForceAtlas2, en mettant l'accent sur l'interactivité pour la visualisation de graphes à grande échelle.
-
Réduction de dimension avec UMAP
- UMAP fait partie des algorithmes les plus performants pour la visualisation en deux dimensions.
- Des embeddings de nœuds sont utilisés comme entrée d'UMAP afin d'obtenir une meilleure visualisation.
- Lors de l'étape finale d'UMAP, un graphe dirigé par les forces est utilisé pour ajuster les distances entre les nœuds.
-
Ajout des couleurs
- Un algorithme de clustering est appliqué à la sortie d'UMAP pour ajouter des couleurs.
- Le clustering k-means est utilisé pour attribuer une teinte à chaque cluster, puis la luminosité est ajustée selon le nombre de followers de chaque nœud.
-
Résultats et projets futurs
- La visualisation montre clairement la densité et la structure des grands clusters.
- Parmi les fonctionnalités prévues, une barre latérale devrait afficher la timeline des comptes actuellement visibles à l'écran.
1 commentaires
Avis sur Hacker News