La réalité de l’économie des faux stars sur GitHub
(awesomeagents.ai)- L’écosystème d’achat/vente de stars sur GitHub s’est structuré à travers des sites spécialisés, des plateformes de freelancing, des réseaux d’échange et des canaux privés. Une analyse couvrant la période 2019-2024 a identifié environ 6 millions de fausses stars suspectes, réparties sur 18 617 dépôts et quelque 301 000 comptes
- En 2024, les campagnes de fausses stars ont fortement augmenté, et 16,66 % des dépôts ayant au moins 50 stars seraient concernés. Les stars achetées ont effectivement servi à apparaître dans GitHub Trending et à contourner les algorithmes de découverte de la plateforme
- La vente de fausses stars se négocie entre 0,03 et 0,90 dollar par star selon la qualité des comptes et le mode de livraison, avec une infrastructure élargie incluant des outils de manipulation du graphe de contributions, la vente de profils préfabriqués, des garanties de remplacement et même des API d’achat
- Le nombre de stars GitHub est directement lié aux indicateurs de levée de fonds et sert de référence aux stades seed et Series A, créant une boucle auto-renforcée où l’achat de stars à faible coût peut produire une perception artificiellement gonflée de la traction et faciliter le financement
- Le ratio stars/forks et le ratio stars/watchers sont présentés comme un premier filtre de détection de manipulation. Malgré l’interdiction prévue par les règles de GitHub et l’application des règles de la FTC, la répression sur les comptes reste plus faible que la suppression des dépôts, et une réponse structurelle n’est pas encore en place
6 millions de fausses stars
- L’analyse StarScout menée par des chercheurs de Carnegie Mellon University, North Carolina State University et Socket a examiné 20 To de métadonnées GitHub, 6,7 milliards d’événements et 326 millions de stars entre 2019 et 2024, et a identifié environ 6 millions de fausses stars suspectes réparties sur 18 617 dépôts et quelque 301 000 comptes
- En 2024, les campagnes de fausses stars ont augmenté brutalement, et en juillet 16,66 % des dépôts ayant au moins 50 stars étaient concernés
- Avant 2022, ce niveau était quasiment nul
- La validation de la précision de détection a aussi montré que 90,42 % des dépôts signalés par StarScout et 57,07 % des comptes avaient été supprimés en janvier 2025
- Un chiffre qui appuie l’idée que GitHub a également reconnu ces activités comme anormales
- Parmi les dépôts ayant bénéficié de fausses stars, les dépôts liés à l’IA et aux LLM constituent la plus grande catégorie non malveillante, avec 177 000 fausses stars recensées en valeur absolue
- Il est indiqué que cela inclut de nombreux dépôts d’articles académiques ou de produits de startups liés aux LLM
- 78 dépôts pour lesquels des campagnes de fausses stars ont été détectées sont apparus dans GitHub Trending, montrant que les stars achetées servent réellement à contourner les algorithmes de découverte de la plateforme
- Dans l’enquête menée par Dagster en mars 2023, des ingénieurs ont directement acheté des stars auprès de deux vendeurs pour vérifier le phénomène
- La société allemande GitHub24 facturait 0,85 EUR par star, et les 100 stars étaient toujours présentes un mois plus tard
- Baddhi Shop vendait 1 000 stars pour 64 dollars, mais avec un taux de maintien annoncé d’environ 75 %
Marketplace
- L’écosystème de vente de stars GitHub s’est structuré à travers des sites spécialisés, des plateformes de freelancing, des réseaux d’échange et des canaux privés, avec au moins 12 sites actifs ou plus vendant directement des stars GitHub
- SocialPlug.io, Buy.fans, Boost-Like.store, GitHubPromoter.com, Followdeh.com, Vurike.com, entre autres, sont cités en exemple
- Les prix varient selon la qualité des comptes et le mode de livraison
- L’entrée de gamme se situe entre 0,03 et 0,10 dollar par star, avec livraison en quelques jours et utilisation de profils nouveaux ou vides
- Le milieu de gamme entre 0,20 et 0,50 dollar, avec livraison en une à deux semaines et quelques traces d’activité
- Le segment premium entre 0,80 et 0,90 dollar, avec une livraison présentée comme progressive et naturelle, ainsi que des comptes vieux de plusieurs années avec dépôts et historique de contributions
- Sur Fiverr également, 24 gigs actifs vendent de la promotion GitHub, avec des stars et forks de base à 5 dollars, et de l’"organic promotion" à partir de 25 dollars
- Des formulations euphémisées ou détournées sont utilisées pour contourner les filtres de la plateforme
- Des plateformes d’échange de stars comme GithubStarMate.com et SafeStarExchange.com sont aussi en activité, proposant un système réciproque de stars basé sur des crédits
- L’infrastructure ne s’arrête pas à la vente de stars et s’étend jusqu’à la manipulation du graphe de contributions GitHub
- Au moins 7 outils open source, dont fake-git-history, commit-bot et Commiter, existent pour falsifier l’historique des contributions GitHub
- Des profils GitHub préfabriqués avec 5 ans d’historique de commits et le badge Arctic Code Vault Contributor se vendent environ 5 000 dollars sur Telegram
- Certains vendeurs proposent même une garantie de remplacement
- Followdeh met en avant une garantie de 30 jours
- Des services premium promettent des stars "non-drop" capables de passer la détection de GitHub
- SocialPlug affirme avoir livré 3,1 millions de stars à plus de 53 000 clients et propose aussi une API d’achat
- Une étude ACSAC 2020 de Tsinghua University a documenté la structure commerciale de groupes de promotion chinois sur QQ et WeChat
- Plus de 1 020 membres traiteraient environ 20 dépôts par jour
- Les profits des promoteurs sont estimés entre 3,4 et 4,4 millions de dollars par an
Analyse interne : caractéristiques des faux stargazers
- Un outil d’analyse basé sur l’API GitHub a été développé pour examiner 20 dépôts, en comparant à la fois des dépôts signalés par StarScout, des dépôts IA à forte croissance du Runa Capital ROSS Index, et des dépôts servant de référence organique
- Pour chaque dépôt, 150 profils de stargazers ont été échantillonnés afin de mesurer l’ancienneté du compte, le nombre de dépôts publics, le nombre d’abonnés et la présence ou non d’une biographie
- Les traces de manipulation réapparaissent de manière répétée dans plusieurs indicateurs communs
- même lorsque les comptes ne sont pas tout récents, la proportion de comptes vides reste élevée
- les ratios stars/forks et stars/watchers sont nettement plus faibles que dans les dépôts organiques
-
Référence organique
- L’ancienneté médiane des comptes pour Flask, LangChain et AutoGPT est respectivement de 4 801 jours, 2 967 jours et 4 022 jours, ce qui montre que la majorité des stargazers sont des développeurs utilisant GitHub depuis longtemps
- La part de comptes sans aucun dépôt public est de 5,3 %, 5,9 % et 2,0 %, tandis que la part de comptes avec 0 abonné reste également faible, à 10,0 %, 11,8 % et 5,9 %
- Le taux de comptes fantômes de Flask est de 1,3 %, et le taux de suspicious accounts pour Flask, LangChain et AutoGPT est indiqué à 0,0 %
- Le ratio stars/forks est de 0,235 pour Flask, 0,155 pour LangChain et 0,090 pour AutoGPT, ce qui indique qu’un certain niveau d’usage et de modification réelle du code accompagne les stars
- Le ratio stars/watchers ressort à 0,029 pour Flask, 0,006 pour LangChain et 0,005 pour AutoGPT
- Les stargazers des dépôts organiques sont actifs depuis des années, possèdent leurs propres projets et présentent le profil typique de développeurs qui suivent d’autres utilisateurs
- Les comptes fantômes — 0 dépôt, 0 abonné et pas de biographie — représentent environ 1 % dans les projets considérés comme sains
-
Dépôts blockchain manipulés
- L’ancienneté médiane des comptes de Union Labs, Shardeum, FreeDomain et Anoma se situe entre 997 et 1 180 jours, un niveau suffisant pour passer un simple filtre visant les nouveaux comptes
- Mais le contenu de ces comptes est vide : la part de comptes avec 0 dépôt public va de 28,0 % à 38,0 %, celle de comptes avec 0 abonné de 52,0 % à 81,3 %, et celle de comptes fantômes de 19,3 % à 28,7 %
- Le ratio stars/forks est indiqué à 0,052 pour Union Labs, 0,022 pour Shardeum, 0,017 pour FreeDomain et 0,121 pour Anoma
- Le ratio stars/watchers est lui aussi très faible, avec par exemple 0,001 pour FreeDomain
- Ces comptes sont interprétés comme des comptes anciens achetés ou acquis de façon industrielle puis mobilisés dans des campagnes de stars
- Le ratio stars/forks est présenté comme le signal le plus fort
- Flask compte 235 forks pour 1 000 stars
- Shardeum en compte 22
- FreeDomain 17
- Le ratio stars/watchers va dans le même sens, et le 0,001 de FreeDomain signifie qu’il n’y a qu’environ 1 utilisateur suivant réellement les mises à jour pour 1 000 stars
-
FreeDomain
- Le dépôt affiche 157 000 stars, mais seulement 168 watchers et 2 676 forks
- Son ratio stars/watchers est 26 fois plus faible que celui de Flask
- Parmi les stargazers échantillonnés, 81,3 % ont 0 abonné, révélant une population de comptes presque sans activité visible sur GitHub
-
Union Labs
- Le projet a été classé n°1 du Runa Capital ROSS Index au 2e trimestre 2025, avec une croissance des stars de 54,2x et 74 300 stars
- L’analyse interne relève 32,7 % de comptes avec 0 dépôt public, 52 % de comptes avec 0 abonné et un ratio stars/forks de 0,052
- L’analyse StarScout le signale comme comportant 47,4 % de fausses stars suspectes
- Cela montre qu’un projet dont près de la moitié des stars pourraient être artificielles peut se retrouver en tête d’un rapport d’identification d’investissements influent consulté par des VC
-
Section IA
- La comparaison entre RagaAI, openai-fm, Langflow et hermes-agent montre de forts écarts d’indicateurs, y compris au sein des dépôts IA
- RagaAI-Catalyst affiche 76,2 % de comptes avec 0 abonné et 28,0 % de comptes fantômes, soit des chiffres presque identiques au schéma blockchain
- openai-fm est présenté comme le cas le plus extrême de l’ensemble du jeu de données
- suspicious accounts : 66,0 %
- comptes fantômes : 36,0 %
- ancienneté médiane des comptes : 116 jours
- les deux tiers des stargazers ont moins d’un an et presque aucune activité sur GitHub
- StarScout indique qu’il s’agit probablement de bots tiers plutôt que d’OpenAI lui-même
- Langflow a été signalé à 47,9 % de faux comptes par StarScout, mais l’analyse de l’échantillon de profils montre des chiffres relativement propres, avec une ancienneté médiane de 2 859 jours et un faible taux de comptes fantômes
- il est suggéré que la qualité des comptes a pu s’améliorer après le scan StarScout
- toutefois, le ratio stars/forks de 0,060 reste faible, à environ un quart de celui de Flask
- hermes-agent de NousResearch est classé comme un dépôt relativement organique
- ancienneté médiane des comptes : 8 ans
- comptes fantômes : 6 %
- ratio stars/forks : 0,133
- indépendamment des accusations d’astroturfing sur Reddit, la majorité des stargazers sont analysés comme de vrais développeurs
- la proportion de comptes avec 0 abonné est un peu plus élevée en raison d’une base d’utilisateurs proche de l’écosystème crypto, mais le schéma général d’engagement est jugé légitime
Comment les stars se transforment en financement
- Le lien entre le nombre de stars GitHub et la levée de fonds des startups est présenté non comme une supposition, mais comme une relation documentée par les investisseurs eux-mêmes
- D’après l’analyse de 80 entreprises d’outils pour développeurs par Jordan Segall de Redpoint Ventures, le nombre médian de stars au seed est de 2 850, et de 4 980 en Series A
- Il mentionne explicitement que de nombreux VC exploitent des programmes internes de scraping pour repérer les projets GitHub à forte croissance, et que l’indicateur le plus souvent regardé est le nombre de stars
- Ces chiffres fournissent de fait aux startups un objectif d’achat
- au tarif des stars low cost, 85 à 285 dollars suffisent pour manipuler le niveau médian seed de 2 850
- 990 à 4 500 dollars permettent d’approcher la zone Series A
- sur la base d’un seed round classique de 1 à 10 millions de dollars, cela correspond à un ROI estimé entre 3 500x et 117 000x
- Runa Capital publie chaque trimestre le ROSS Index, qui classe les 20 meilleures startups open source selon la croissance de leurs stars GitHub
- Selon TechCrunch, 68 % des startups ayant levé des fonds étaient au stade seed, et le total des tours suivis atteint 169 millions de dollars
- Via le GitHub Fund, GitHub s’associe aussi à M12 pour investir 10 millions de dollars par an, en finançant 8 à 10 entreprises open source en pré-seed et seed en s’appuyant en partie sur la traction de la plateforme
- Plusieurs exemples sont cités où les stars ont conduit à un financement
- Lovable : plus de 50 000 stars, un pré-seed de 7,5 millions de dollars, puis une Series A de 200 millions de dollars sur une valorisation de 1,8 milliard de dollars avec une équipe d’environ 45 personnes
-
Pangolin** : 1 000 stars en janvier 2025, admission chez Y Combinator, puis **4,7 millions de dollars de seed d’ici août 2025
-
Browser-use** : 50 000 stars en 3 mois, Y Combinator W25, puis **17 millions de dollars de seed
- LangChain : un investissement seed de 10 millions de dollars par Benchmark
- Fraser Marlow de Dagster a lui aussi déclaré avoir accordé beaucoup d’attention aux stars GitHub juste avant sa levée de fonds
- Un article de Organization Science met aussi en évidence une corrélation statistique entre l’activité sur GitHub et les résultats de financement des startups
- Les startups actives sur GitHub ont 15 points de pourcentage de probabilité en plus d’avoir levé un tour
- Il en résulte une boucle auto-renforçante de type suivi des stars par les VC → manipulation par les startups → perception gonflée de la traction → adoption par davantage de VC → manipulation accrue
- Le seuil public communiqué par Redpoint fournit aux startups une cible chiffrée très précise
Ratio forks/stars : une heuristique de détection simple
- Dans l’analyse interne, le ratio forks/stars apparaît comme l’indicateur simple le plus fort pour identifier une manipulation potentielle
- La logique est simple
- les stars peuvent être attribuées sans coût et ne traduisent pas un engagement réel
- un fork signifie que le code a été téléchargé pour être utilisé ou modifié
- Les ratios forks/stars moyens par catégorie sont présentés comme suit
- les 3 dépôts de référence organiques : 0,160
- les 5 dépôts d’outils IA : 0,124
- les 4 dépôts du cluster blockchain soupçonné de manipulation : 0,053
- les 2 dépôts des cas extrêmes : 0,020
- Le critère proposé est qu’un dépôt ayant plus de 10 000 stars et un ratio forks/stars inférieur à 0,05 doit faire l’objet d’un examen attentif
- Le ratio watchers/stars est présenté comme un signal secondaire plus intuitif
- les projets organiques affichent en moyenne de 0,005 à 0,030
- FreeDomain affiche 0,001
- Ce ratio n’est pas un critère de discrimination parfait, car les dépôts pédagogiques ou les listes de curation peuvent avoir par nature un faible taux de forks
- Il est néanmoins jugé efficace comme filtre de premier niveau pour repérer les cas les plus graves que le simple nombre brut de stars ne permet pas de voir
La fausse popularité au-delà de GitHub
- Le même phénomène s’étend à toutes les plateformes où les métriques de popularité influencent la confiance
- Les téléchargements npm peuvent être gonflés très facilement
- Andy Richardson a fait grimper le package
is-introspection-queryà près de 1 million de téléchargements par semaine en utilisant uniquement le free tier d’une seule fonction AWS Lambda - le chiffre dépassait celui de packages légitimes comme
urqloumobx, alors que le nombre réel d’utilisateurs était présenté comme nul - dans l’étude de la CMU, seuls 1,23 % des dépôts ayant fait l’objet d’une campagne de fausses stars apparaissaient dans un registre de packages, mais parmi ces 738 packages, 70,46 % n’avaient aucun projet dépendant
- Andy Richardson a fait grimper le package
- Les extensions du VS Code Marketplace présentent la même vulnérabilité
- les chercheurs ont démontré plus de 1 000 installations d’une fausse extension en 48 heures
- AquaSec a découvert 1 283 extensions avec des dépendances malveillantes connues, pour un total de 229 millions d’installations
- La promotion sur X/Twitter amplifie la viralité artificielle sur GitHub
- dans des groupes privés appelés engagement pods, les membres échangent entre eux likes, reposts et commentaires
- Growth Terminal vend cela comme une fonctionnalité produit
- NBC News et des chercheurs de la Clemson University ont identifié un réseau de 686 comptes X ayant publié plus de 130 000 fois avec du contenu généré par LLM
- certains posts contenaient des traces du modèle utilisé, avec des formulations comme « Dolphin here! »
- Dans le cas Higgsfield AI, un astroturfing inter-plateformes a été documenté à grande échelle
- plus de 100 posts spam répartis sur plus de 60 subreddits
- combinés à des envois massifs de DM modèles proposant une rémunération à des créateurs de contenu pour faire la promotion
Une exposition juridique presque jamais évoquée
- La FTC Consumer Review Rule entre en vigueur le 21 octobre 2024 et interdit explicitement l’achat ou la vente de « fausses métriques d’influence sur les réseaux sociaux » reposant sur des bots ou de faux comptes à des fins commerciales
- Les sanctions en cas d’infraction sont présentées comme pouvant aller jusqu’à 53 088 dollars par cas
- La FTC a envoyé ses premières lettres d’avertissement à 10 entreprises en 2025, et l’article explique que l’achat de stars GitHub pour promouvoir un produit commercial entre dans ce cadre
- Les précédents de la SEC sont aussi présentés comme un cas plus direct
- le CEO de HeadSpin a été inculpé pour fraude électronique et fraude sur valeurs mobilières après avoir gonflé des métriques afin d’obtenir 80 millions de dollars auprès d’investisseurs
- le fondateur de ComplYant est poursuivi après avoir affirmé réaliser 250 000 dollars de revenus mensuels alors que le montant réel était de 250 dollars
- La SEC fait ainsi passer le message que les startupers en levée de fonds ne peuvent pas utiliser la culture du « fake it until you make it » pour tromper les investisseurs
- Le lien établi est le suivant : si une startup gonfle sa traction avec de fausses stars GitHub pendant une levée de fonds, et qu’un investisseur engage des capitaux sur la base de cette métrique, le cadre de la fraude électronique pour fausse déclaration d’un fait matériel via des communications électroniques pourrait s’appliquer
- Il n’existe pas encore de poursuite fondée uniquement sur de fausses stars GitHub, mais au vu de l’ampleur démontrée par l’étude de la CMU et de l’interdiction explicite posée par la règle de la FTC, ce pourrait n’être qu’une question de temps
La réponse de GitHub
- Les Acceptable Use Policies de GitHub interdisent explicitement les interactions inauthentiques, les faux comptes et l’activité automatisée inauthentique, les abus de classement comme les stars ou follows automatisés, ainsi que la participation à des marchés secondaires destinés à amplifier l’activité inauthentique
- Les stars obtenues en échange de récompenses comme des airdrops crypto, des tokens, des crédits ou des cadeaux sont également interdites par la politique
- L’application est jugée réactive et asymétrique
- 90,42 % des dépôts signalés par StarScout ont été supprimés, mais seuls 57,07 % des comptes ayant fourni ces stars l’ont été
- une part importante de l’infrastructure de comptes réutilisable pour de futures campagnes reste donc en place
- Dans l’enquête Dagster aussi, les profils de fausses stars ont été supprimés en 48 heures, mais cela est présenté comme une réaction après exposition publique, et non comme un cas de détection préventive
- GitHub n’a jamais publié de billet de blog d’ingénierie détaillant ses méthodes de détection des manipulations de stars ni de rapport de transparence distinct sur le sujet
- Le vice-président des opérations de sécurité de GitHub a seulement déclaré à Wired que des comptes avaient été désactivés conformément à la politique, en refusant toute explication supplémentaire
- il est toutefois précisé que cette déclaration portait non pas sur la manipulation de vanity metrics, mais sur l’opération malveillante Stargazers Ghost Network
- Les chercheurs de la CMU recommandent d’adopter une métrique de popularité pondérée fondée sur la centralité du réseau plutôt que sur le nombre brut de stars
- ce changement est présenté comme pouvant affaiblir structurellement l’économie des fausses stars
- GitHub n’a pas encore mis en œuvre cette recommandation
Les métriques que les VC devraient examiner à la place
- Bessemer Venture Partners qualifie les stars de vanity metrics et suit à la place l’activité mensuelle des contributeurs uniques
- en incluant les auteurs d’issues, de commentaires, de PR et de commits
- parmi les 10 000 plus grands projets, moins de 5 % dépassent 250 contributeurs mensuels
- et seuls 2 % maintiennent ce niveau pendant 6 mois consécutifs
- Jono Bacon de StateShift recommande 5 métriques corrélées à l’adoption réelle
- le nombre de téléchargements des packages
- la qualité des issues, qui révèle les edge cases de production rencontrés par de vrais utilisateurs
- la rétention des contributeurs, mesurée par le délai jusqu’à la deuxième PR
- la profondeur des discussions communautaires
- la télémétrie d’usage
- Le ratio forks/stars mis en évidence dans l’analyse interne est présenté comme le filtre de premier niveau le plus simple
- un projet sain compte environ 100 à 200 forks pour 1 000 stars
- si le total de stars est élevé mais qu’il y a moins de 50 forks pour 1 000 stars, une vérification supplémentaire est nécessaire
- Une citation résume l’idée : « On peut truquer le nombre de stars, mais pas un correctif de bug qui a sauvé le week-end de quelqu’un. »
Problèmes structurels
- Trois dynamiques sont avancées pour expliquer pourquoi l’économie des faux stars s’auto-renforce
-
Boucle d’incitation
- Les VC utilisent les stars comme signal de sourcing
- Les startups manipulent les stars
- Les VC valident une traction gonflée
- Davantage de VC adoptent le suivi des stars
- Cela crée une structure circulaire dans laquelle davantage de startups se lancent dans la manipulation
- Le benchmark public de Redpoint, 2 850 au seed, 4 980 en Series A, sert de fait de grille tarifaire des volumes à acheter
-
Vulnérabilité du secteur de l’IA
- Une surchauffe excessive, une structure de financement adjacente aux cryptomonnaies qui récompense le prix des tokens plutôt que la qualité du produit, et un écosystème de reviewers sur X/Twitter mêlé à des personas manipulés se combinent pour créer un environnement favorable à une confiance fabriquée
- Sa propre analyse montre aussi qu’un grand nombre des dépôts aux pires signaux de manipulation sont des projets IA liés à la blockchain et aux cryptomonnaies
-
Asymétrie dans l’application des règles par GitHub
- Une structure qui supprime les dépôts tout en laissant en place 57 % des faux comptes préserve la main-d’œuvre de l’économie des faux stars
- L’effet dissuasif contre les violations répétées est faible
- Il conclut que tant que GitHub n’adoptera pas des changements structurels comme des métriques de popularité pondérées, des scores de réputation au niveau des comptes et des rapports d’application transparents, l’écart entre le nombre de stars et l’adoption réelle par les développeurs continuera de se creuser
- L’économie des faux stars est résumée comme une structure où un problème à 50 dollars produit des conséquences à 50 millions de dollars
- Le texte se conclut sur l’idée que, jusqu’à ce que les plateformes, les investisseurs et les régulateurs rattrapent leur retard, le marché continuera de payer ces 50 dollars
Aucun commentaire pour le moment.