8 points par GN⁺ 2025-04-20 | 1 commentaires | Partager sur WhatsApp
  • Certaines entreprises d’IA insèrent dans leurs applications un "SDK proxy P2P botnetisé" pour collecter des données, intégrant ainsi les utilisateurs, à leur insu, à leur infrastructure de crawling web
  • Ce SDK "vend" sans autorisation une partie de la bande passante réseau de l’utilisateur (120 à 150 kbps), reverse des revenus aux développeurs (18 cents par utilisateur) et exécute des activités anormales comme le crawling ou le brute force sur des serveurs mail
  • Ce botnet utilise des dizaines de milliers d’IP résidentielles et mobiles pour échapper à la détection, avec une seule tentative d’attaque par IP et par jour, afin de contourner des systèmes de sécurité comme fail2ban
  • Parmi les cas représentatifs figure notamment le SDK d’Infatica ; les développeurs d’applications qui l’intègrent infectent de fait leurs utilisateurs avec un botnet
  • Le marché des "proxys résidentiels" (residential proxy) connaît une forte croissance sous l’effet de la demande en crawling IA, alors qu’il s’agit en pratique d’une infrastructure de crawling non autorisée
  • Cette architecture de botnet constitue une nouvelle forme d’attaque furtive, à laquelle participent des développeurs d’applications
  • L’auteur qualifie le crawling web lui-même d’"attaque contre les fondations du web", appelle à la responsabilité des développeurs et des plateformes, et soutient qu’il faut bloquer tout crawling

Le botnet furtif, sa véritable nature : Botnet Part 1

L’attaque d’un botnet contre un serveur mail personnel

  • Le serveur mail de l’auteur subit en continu des attaques de brute force SMTP
  • Objectif des attaques : compromettre des comptes pour envoyer du spam
  • La plupart échouent, mais les tentatives elles-mêmes sont continues et tenaces

La véritable nature du botnet : infection des appareils via un SDK

  • Une rémunération est versée aux développeurs d’applications en échange de l’intégration du SDK
    • Exemple : 18 cents par utilisateur et par mois
  • Ce SDK loue une partie du trafic de l’utilisateur (120 à 150 kbps)
  • Présenté comme un "proxy P2P" ou un residential proxy, il sert en réalité à utiliser l’appareil de l’utilisateur comme nœud de botnet

Le mode opératoire : attaque distribuée conçue pour échapper à la détection

  • Une seule tentative de connexion par IP et par jour → contournement de la détection automatique de fail2ban, UFW, etc.
  • Mais avec des dizaines de milliers d’IP, l’attaque est menée de façon persistante et distribuée
  • L’auteur souligne que cette méthode neutralise les outils de sécurité standard

L’inefficacité du blocage par ASN

  • Analyse visant à savoir si les IP se concentrent chez certains opérateurs (ASN)
    • Résultat : moins de 4 IP d’attaque par ASN en moyenne → bloquer un ASN entier n’est pas efficace
  • Pour l’instant, la méthode reste : analyse quotidienne des logs → envoi par mail des commandes de blocage des nouvelles IP → blocage manuel

Réponse apportée et philosophie

  • L’automatisation serait possible, mais le fait d’observer et de réagir manuellement permet de repérer les motifs et de rester en alerte
  • Nombre d’IP attaquantes : plus de 50 000 actuellement bloquées
  • Il s’agit majoritairement d’IPv4 ; les attaques en IPv6 restent encore rares

La réalité de l’écosystème des botnets

  • Une chaîne de distribution qui paraît légale, fondée sur le modèle "intégration du SDK → partage des revenus"
  • En pratique, le trafic des utilisateurs est exploité sans consentement pour le spam, les attaques, le crawling, etc.
  • Ces botnets ne sont généralement pas détectés par les antivirus ou les systèmes de sécurité classiques

Conclusion

  • Lorsqu’un développeur d’application inclut un tel SDK, il participe de fait à la création d’un botnet
  • Les utilisateurs ordinaires ne peuvent pas savoir si une application contient ce type de SDK et participent automatiquement au botnet
  • À partir de ce constat, l’auteur alerte sur l’effondrement de l’écosystème du web

« Je n’ai aucune confiance dans les entreprises qui prétendent qu’il s’agit d’un “SDK normal”. C’est un botnet. »
— Jan Wildeboer, février 2025


# Le web est cassé : Botnet Part 2

L’explosion des crawlers web et son contexte

  • Hausse récente de la demande en collecte massive de données pour entraîner les modèles d’IA
  • Les entreprises d’IA aspirent en silence l’ensemble des contenus du web, provoquant des surcharges de trafic
  • Les webmasters et opérateurs de serveurs subissent les crawlers, mais ignorent souvent qui les exploite réellement

Une nouvelle forme de botnet : infection des utilisateurs via un SDK

  • Certaines entreprises rémunèrent les développeurs d’applications pour l’intégration d’un SDK
  • Les utilisateurs ordinaires qui installent une application contenant ce SDK voient, à leur insu, leur trafic utilisé pour des crawlers IA
  • Ces SDK peuvent être intégrés à des applications iOS, Android, MacOS et Windows

Cas emblématique : Infatica

  • Site web : https://infatica.io
  • Sa page de présentation pour développeurs vante la possibilité de crawler via le réseau des utilisateurs
  • L’entreprise affirme fournir des millions d’IP rotatives (résidentielles/mobiles)

Pourquoi est-ce un problème ?

  • Des entreprises comme Infatica affirment surveiller les commandes exécutées par leurs clients (notamment des entreprises d’IA faisant du crawling), mais cela ressemble surtout à une structure d’évitement des responsabilités
  • Le rapport 2023 de Trend Micro a également relevé des cas similaires
  • Certains injectent discrètement le SDK dans des logiciels gratuits et les diffusent sans consentement explicite des utilisateurs

Les victimes : à la fois les particuliers et les petits serveurs

  • Développeurs d’applications : attirés par l’argent, ils intègrent le SDK et deviennent de fait des diffuseurs de malwares
  • Utilisateurs : leur appareil et leur réseau servent au crawling web et aux DDoS
  • Administrateurs de serveurs : ils deviennent, sans le savoir, la cible de requêtes excessives
    • Exemple : l’instance Forgejo de l’auteur a elle aussi été rendue privée à cause d’un trafic bot trop important

L’emballage sous le nom de "proxy résidentiel"

  • Un proxy qui s’appuie sur les appareils des utilisateurs est appelé "IP résidentielle"
  • Exemple de site d’avis sur les services proxy :
    https://proxyway.com/reviews
  • En apparence, cela ressemble à une infrastructure légitime, mais il s’agit en réalité d’un mécanisme de propagation et de proxyfication non autorisé

Conclusion : le crawling web est désormais dans l’abus

  • L’auteur estime qu’il faut désormais considérer toute forme de crawling web comme malveillante
  • Selon lui, les crawlers web attaquent les fondations mêmes du web
  • L’IA est le moteur central de cette structure, et il rejette fermement l’idée qu’elle serait "légitime"

Recommandations et enjeux

  • Les développeurs qui intègrent ces SDK doivent être tenus pour responsables
  • Des plateformes comme Apple, Google et Microsoft doivent sanctionner ce marché
  • Il est presque impossible pour l’utilisateur ordinaire d’identifier ou de bloquer cela
  • Les opérateurs web essaient de bloquer les crawlers techniquement, mais se heurtent à des limites

« Grâce à l’IA, le web devient un espace dans lequel on ne peut plus avoir confiance. Merci, l’IA. »
– Jan Wildeboer, avril 2025

1 commentaires

 
GN⁺ 2025-04-20
Avis Hacker News
  • Le fait que des développeurs d’apps intègrent des SDK tiers pour monétiser fait partie du problème, et je pense qu’ils doivent être tenus responsables de la distribution de logiciels malveillants à leurs utilisateurs

    • Je soupçonne que beaucoup de SDK posent ce genre de problème
    • Personnellement, je préfère éviter l’addiction aux dépendances et développer moi-même
    • Des acteurs malveillants exploitent l’addiction aux dépendances des développeurs modernes pour tendre des pièges
  • Il existe, sur iOS, Android, MacOS et Windows, un marché où l’on fait intégrer aux développeurs d’apps des bibliothèques qui revendent la bande passante réseau des utilisateurs

    • C’est lié à la raison pour laquelle Cloudflare et Google demandent des CAPTCHA
    • Je ne comprends pas que Play Protect, MS Defender et l’antivirus d’Apple ne détectent pas ce type de logiciel malveillant
    • Qu’une bibliothèque SDK transforme l’appareil d’un utilisateur en partie d’un botnet est un exemple évident de cheval de Troie
  • Le problème du web, c’est que pour que les données restent lisibles, il faut qu’un certain administrateur système continue de maintenir le serveur

    • Avec un modèle d’adressage par contenu, on peut supprimer la contrainte d’unicité
    • Les scrapers IA pourraient partager les données entre eux sans faire peser la charge sur la source d’origine
  • Les logiciels de partage réseau devraient être classés comme applications non désirées

    • Ils s’installent avec ce que l’utilisateur voulait réellement installer et abusent des ressources
    • J’aimerais utiliser Wireshark pour vérifier s’il y a une activité suspecte
    • Il faudrait un dépôt public des apps qui se comportent ainsi
  • Les apps qui incluent des logiciels malveillants devraient être mises en quarantaine immédiatement

    • Même sans causer de dommages directs, cela reste un logiciel malveillant
  • Le web scraping devrait être considéré comme un abus, et les serveurs web devraient le bloquer

    • Des plateformes comme Youtube seront probablement d’accord avec ça
  • Je me demande si quelqu’un a compilé une liste des logiciels qui utilisent ce type de bibliothèques

    • Ce serait bien de savoir quelles apps éviter
  • Les proxys IP résidentiels ont la faiblesse de changer souvent d’adresse IP

    • Les IP provenant du même fournisseur de proxy peuvent être détectées facilement
    • Je développe une plateforme open source de prévention de la fraude, et la détection des faux utilisateurs venant de proxys résidentiels fait partie des cas d’usage
  • Il n’y a pas encore de preuve claire à ce stade, mais ce type de comportement peut être détecté facilement

    • iOS dispose de fonctions permettant de vérifier les connexions d’une app
    • Android n’a pas cette fonction, mais on peut utiliser des pare-feu tiers comme pcapdroid
    • Sur MacOS, on peut utiliser Little Snitch, et sur Windows, Fort Firewall
    • Peu de gens utilisent ce type d’apps, mais ils sont susceptibles de signaler les apps qui utilisent leur appareil comme botnet
  • Je me demande s’il existe une liste de serveurs c&c à ajouter à Pihole et autres