« Le web est cassé » — Et si votre appareil devenait un botnet attaquant les autres ? Crawling IA et écosystème caché des proxys
(jan.wildeboer.net)- Certaines entreprises d’IA insèrent dans leurs applications un "SDK proxy P2P botnetisé" pour collecter des données, intégrant ainsi les utilisateurs, à leur insu, à leur infrastructure de crawling web
- Ce SDK "vend" sans autorisation une partie de la bande passante réseau de l’utilisateur (120 à 150 kbps), reverse des revenus aux développeurs (18 cents par utilisateur) et exécute des activités anormales comme le crawling ou le brute force sur des serveurs mail
- Ce botnet utilise des dizaines de milliers d’IP résidentielles et mobiles pour échapper à la détection, avec une seule tentative d’attaque par IP et par jour, afin de contourner des systèmes de sécurité comme fail2ban
- Parmi les cas représentatifs figure notamment le SDK d’Infatica ; les développeurs d’applications qui l’intègrent infectent de fait leurs utilisateurs avec un botnet
- Le marché des "proxys résidentiels" (
residential proxy) connaît une forte croissance sous l’effet de la demande en crawling IA, alors qu’il s’agit en pratique d’une infrastructure de crawling non autorisée - Cette architecture de botnet constitue une nouvelle forme d’attaque furtive, à laquelle participent des développeurs d’applications
- L’auteur qualifie le crawling web lui-même d’"attaque contre les fondations du web", appelle à la responsabilité des développeurs et des plateformes, et soutient qu’il faut bloquer tout crawling
Le botnet furtif, sa véritable nature : Botnet Part 1
L’attaque d’un botnet contre un serveur mail personnel
- Le serveur mail de l’auteur subit en continu des attaques de brute force SMTP
- Objectif des attaques : compromettre des comptes pour envoyer du spam
- La plupart échouent, mais les tentatives elles-mêmes sont continues et tenaces
La véritable nature du botnet : infection des appareils via un SDK
- Une rémunération est versée aux développeurs d’applications en échange de l’intégration du SDK
- Exemple : 18 cents par utilisateur et par mois
- Ce SDK loue une partie du trafic de l’utilisateur (120 à 150 kbps)
- Présenté comme un "proxy P2P" ou un
residential proxy, il sert en réalité à utiliser l’appareil de l’utilisateur comme nœud de botnet
Le mode opératoire : attaque distribuée conçue pour échapper à la détection
- Une seule tentative de connexion par IP et par jour → contournement de la détection automatique de fail2ban, UFW, etc.
- Mais avec des dizaines de milliers d’IP, l’attaque est menée de façon persistante et distribuée
- L’auteur souligne que cette méthode neutralise les outils de sécurité standard
L’inefficacité du blocage par ASN
- Analyse visant à savoir si les IP se concentrent chez certains opérateurs (ASN)
- Résultat : moins de 4 IP d’attaque par ASN en moyenne → bloquer un ASN entier n’est pas efficace
- Pour l’instant, la méthode reste : analyse quotidienne des logs → envoi par mail des commandes de blocage des nouvelles IP → blocage manuel
Réponse apportée et philosophie
- L’automatisation serait possible, mais le fait d’observer et de réagir manuellement permet de repérer les motifs et de rester en alerte
- Nombre d’IP attaquantes : plus de 50 000 actuellement bloquées
- Il s’agit majoritairement d’IPv4 ; les attaques en IPv6 restent encore rares
La réalité de l’écosystème des botnets
- Une chaîne de distribution qui paraît légale, fondée sur le modèle "intégration du SDK → partage des revenus"
- En pratique, le trafic des utilisateurs est exploité sans consentement pour le spam, les attaques, le crawling, etc.
- Ces botnets ne sont généralement pas détectés par les antivirus ou les systèmes de sécurité classiques
Conclusion
- Lorsqu’un développeur d’application inclut un tel SDK, il participe de fait à la création d’un botnet
- Les utilisateurs ordinaires ne peuvent pas savoir si une application contient ce type de SDK et participent automatiquement au botnet
- À partir de ce constat, l’auteur alerte sur l’effondrement de l’écosystème du web
« Je n’ai aucune confiance dans les entreprises qui prétendent qu’il s’agit d’un “SDK normal”. C’est un botnet. »
— Jan Wildeboer, février 2025
# Le web est cassé : Botnet Part 2
L’explosion des crawlers web et son contexte
- Hausse récente de la demande en collecte massive de données pour entraîner les modèles d’IA
- Les entreprises d’IA aspirent en silence l’ensemble des contenus du web, provoquant des surcharges de trafic
- Les webmasters et opérateurs de serveurs subissent les crawlers, mais ignorent souvent qui les exploite réellement
Une nouvelle forme de botnet : infection des utilisateurs via un SDK
- Certaines entreprises rémunèrent les développeurs d’applications pour l’intégration d’un SDK
- Les utilisateurs ordinaires qui installent une application contenant ce SDK voient, à leur insu, leur trafic utilisé pour des crawlers IA
- Ces SDK peuvent être intégrés à des applications iOS, Android, MacOS et Windows
Cas emblématique : Infatica
- Site web : https://infatica.io
- Sa page de présentation pour développeurs vante la possibilité de crawler via le réseau des utilisateurs
- L’entreprise affirme fournir des millions d’IP rotatives (résidentielles/mobiles)
Pourquoi est-ce un problème ?
- Des entreprises comme Infatica affirment surveiller les commandes exécutées par leurs clients (notamment des entreprises d’IA faisant du crawling), mais cela ressemble surtout à une structure d’évitement des responsabilités
- Le rapport 2023 de Trend Micro a également relevé des cas similaires
- Certains injectent discrètement le SDK dans des logiciels gratuits et les diffusent sans consentement explicite des utilisateurs
Les victimes : à la fois les particuliers et les petits serveurs
- Développeurs d’applications : attirés par l’argent, ils intègrent le SDK et deviennent de fait des diffuseurs de malwares
- Utilisateurs : leur appareil et leur réseau servent au crawling web et aux DDoS
- Administrateurs de serveurs : ils deviennent, sans le savoir, la cible de requêtes excessives
- Exemple : l’instance
Forgejode l’auteur a elle aussi été rendue privée à cause d’un trafic bot trop important
- Exemple : l’instance
L’emballage sous le nom de "proxy résidentiel"
- Un proxy qui s’appuie sur les appareils des utilisateurs est appelé "IP résidentielle"
- Exemple de site d’avis sur les services proxy :
https://proxyway.com/reviews - En apparence, cela ressemble à une infrastructure légitime, mais il s’agit en réalité d’un mécanisme de propagation et de proxyfication non autorisé
Conclusion : le crawling web est désormais dans l’abus
- L’auteur estime qu’il faut désormais considérer toute forme de crawling web comme malveillante
- Selon lui, les crawlers web attaquent les fondations mêmes du web
- L’IA est le moteur central de cette structure, et il rejette fermement l’idée qu’elle serait "légitime"
Recommandations et enjeux
- Les développeurs qui intègrent ces SDK doivent être tenus pour responsables
- Des plateformes comme Apple, Google et Microsoft doivent sanctionner ce marché
- Il est presque impossible pour l’utilisateur ordinaire d’identifier ou de bloquer cela
- Les opérateurs web essaient de bloquer les crawlers techniquement, mais se heurtent à des limites
« Grâce à l’IA, le web devient un espace dans lequel on ne peut plus avoir confiance. Merci, l’IA. »
– Jan Wildeboer, avril 2025
1 commentaires
Avis Hacker News
Le fait que des développeurs d’apps intègrent des SDK tiers pour monétiser fait partie du problème, et je pense qu’ils doivent être tenus responsables de la distribution de logiciels malveillants à leurs utilisateurs
Il existe, sur iOS, Android, MacOS et Windows, un marché où l’on fait intégrer aux développeurs d’apps des bibliothèques qui revendent la bande passante réseau des utilisateurs
Le problème du web, c’est que pour que les données restent lisibles, il faut qu’un certain administrateur système continue de maintenir le serveur
Les logiciels de partage réseau devraient être classés comme applications non désirées
Les apps qui incluent des logiciels malveillants devraient être mises en quarantaine immédiatement
Le web scraping devrait être considéré comme un abus, et les serveurs web devraient le bloquer
Je me demande si quelqu’un a compilé une liste des logiciels qui utilisent ce type de bibliothèques
Les proxys IP résidentiels ont la faiblesse de changer souvent d’adresse IP
Il n’y a pas encore de preuve claire à ce stade, mais ce type de comportement peut être détecté facilement
Je me demande s’il existe une liste de serveurs
c&cà ajouter à Pihole et autres