« Le web est cassé » — Et si votre appareil devenait un botnet attaquant les autres ? Crawling IA et écosystème caché des proxys

(jan.wildeboer.net)

8 points par GN⁺ 2025-04-20 | 1 commentaires | Partager sur WhatsApp

Certaines entreprises d’IA insèrent dans leurs applications un "SDK proxy P2P botnetisé" pour collecter des données, intégrant ainsi les utilisateurs, à leur insu, à leur infrastructure de crawling web
Ce SDK "vend" sans autorisation une partie de la bande passante réseau de l’utilisateur (120 à 150 kbps), reverse des revenus aux développeurs (18 cents par utilisateur) et exécute des activités anormales comme le crawling ou le brute force sur des serveurs mail
Ce botnet utilise des dizaines de milliers d’IP résidentielles et mobiles pour échapper à la détection, avec une seule tentative d’attaque par IP et par jour, afin de contourner des systèmes de sécurité comme fail2ban
Parmi les cas représentatifs figure notamment le SDK d’Infatica ; les développeurs d’applications qui l’intègrent infectent de fait leurs utilisateurs avec un botnet
Le marché des "proxys résidentiels" (residential proxy) connaît une forte croissance sous l’effet de la demande en crawling IA, alors qu’il s’agit en pratique d’une infrastructure de crawling non autorisée
Cette architecture de botnet constitue une nouvelle forme d’attaque furtive, à laquelle participent des développeurs d’applications
L’auteur qualifie le crawling web lui-même d’"attaque contre les fondations du web", appelle à la responsabilité des développeurs et des plateformes, et soutient qu’il faut bloquer tout crawling

Le botnet furtif, sa véritable nature : Botnet Part 1

L’attaque d’un botnet contre un serveur mail personnel

Le serveur mail de l’auteur subit en continu des attaques de brute force SMTP
Objectif des attaques : compromettre des comptes pour envoyer du spam
La plupart échouent, mais les tentatives elles-mêmes sont continues et tenaces

La véritable nature du botnet : infection des appareils via un SDK

Une rémunération est versée aux développeurs d’applications en échange de l’intégration du SDK
- Exemple : 18 cents par utilisateur et par mois
Ce SDK loue une partie du trafic de l’utilisateur (120 à 150 kbps)
Présenté comme un "proxy P2P" ou un residential proxy, il sert en réalité à utiliser l’appareil de l’utilisateur comme nœud de botnet

Le mode opératoire : attaque distribuée conçue pour échapper à la détection

Une seule tentative de connexion par IP et par jour → contournement de la détection automatique de fail2ban, UFW, etc.
Mais avec des dizaines de milliers d’IP, l’attaque est menée de façon persistante et distribuée
L’auteur souligne que cette méthode neutralise les outils de sécurité standard

L’inefficacité du blocage par ASN

Analyse visant à savoir si les IP se concentrent chez certains opérateurs (ASN)
- Résultat : moins de 4 IP d’attaque par ASN en moyenne → bloquer un ASN entier n’est pas efficace
Pour l’instant, la méthode reste : analyse quotidienne des logs → envoi par mail des commandes de blocage des nouvelles IP → blocage manuel

Réponse apportée et philosophie

L’automatisation serait possible, mais le fait d’observer et de réagir manuellement permet de repérer les motifs et de rester en alerte
Nombre d’IP attaquantes : plus de 50 000 actuellement bloquées
Il s’agit majoritairement d’IPv4 ; les attaques en IPv6 restent encore rares

La réalité de l’écosystème des botnets

Une chaîne de distribution qui paraît légale, fondée sur le modèle "intégration du SDK → partage des revenus"
En pratique, le trafic des utilisateurs est exploité sans consentement pour le spam, les attaques, le crawling, etc.
Ces botnets ne sont généralement pas détectés par les antivirus ou les systèmes de sécurité classiques

Conclusion

Lorsqu’un développeur d’application inclut un tel SDK, il participe de fait à la création d’un botnet
Les utilisateurs ordinaires ne peuvent pas savoir si une application contient ce type de SDK et participent automatiquement au botnet
À partir de ce constat, l’auteur alerte sur l’effondrement de l’écosystème du web

« Je n’ai aucune confiance dans les entreprises qui prétendent qu’il s’agit d’un “SDK normal”. C’est un botnet. »
— Jan Wildeboer, février 2025

# Le web est cassé : Botnet Part 2

L’explosion des crawlers web et son contexte

Hausse récente de la demande en collecte massive de données pour entraîner les modèles d’IA
Les entreprises d’IA aspirent en silence l’ensemble des contenus du web, provoquant des surcharges de trafic
Les webmasters et opérateurs de serveurs subissent les crawlers, mais ignorent souvent qui les exploite réellement

Une nouvelle forme de botnet : infection des utilisateurs via un SDK

Certaines entreprises rémunèrent les développeurs d’applications pour l’intégration d’un SDK
Les utilisateurs ordinaires qui installent une application contenant ce SDK voient, à leur insu, leur trafic utilisé pour des crawlers IA
Ces SDK peuvent être intégrés à des applications iOS, Android, MacOS et Windows

Cas emblématique : Infatica

Site web : https://infatica.io
Sa page de présentation pour développeurs vante la possibilité de crawler via le réseau des utilisateurs
L’entreprise affirme fournir des millions d’IP rotatives (résidentielles/mobiles)

Pourquoi est-ce un problème ?

Des entreprises comme Infatica affirment surveiller les commandes exécutées par leurs clients (notamment des entreprises d’IA faisant du crawling), mais cela ressemble surtout à une structure d’évitement des responsabilités
Le rapport 2023 de Trend Micro a également relevé des cas similaires
Certains injectent discrètement le SDK dans des logiciels gratuits et les diffusent sans consentement explicite des utilisateurs

Les victimes : à la fois les particuliers et les petits serveurs

Développeurs d’applications : attirés par l’argent, ils intègrent le SDK et deviennent de fait des diffuseurs de malwares
Utilisateurs : leur appareil et leur réseau servent au crawling web et aux DDoS
Administrateurs de serveurs : ils deviennent, sans le savoir, la cible de requêtes excessives
- Exemple : l’instance Forgejo de l’auteur a elle aussi été rendue privée à cause d’un trafic bot trop important

L’emballage sous le nom de "proxy résidentiel"

Un proxy qui s’appuie sur les appareils des utilisateurs est appelé "IP résidentielle"
Exemple de site d’avis sur les services proxy :
https://proxyway.com/reviews
En apparence, cela ressemble à une infrastructure légitime, mais il s’agit en réalité d’un mécanisme de propagation et de proxyfication non autorisé

Conclusion : le crawling web est désormais dans l’abus

L’auteur estime qu’il faut désormais considérer toute forme de crawling web comme malveillante
Selon lui, les crawlers web attaquent les fondations mêmes du web
L’IA est le moteur central de cette structure, et il rejette fermement l’idée qu’elle serait "légitime"

Recommandations et enjeux

Les développeurs qui intègrent ces SDK doivent être tenus pour responsables
Des plateformes comme Apple, Google et Microsoft doivent sanctionner ce marché
Il est presque impossible pour l’utilisateur ordinaire d’identifier ou de bloquer cela
Les opérateurs web essaient de bloquer les crawlers techniquement, mais se heurtent à des limites

« Grâce à l’IA, le web devient un espace dans lequel on ne peut plus avoir confiance. Merci, l’IA. »
– Jan Wildeboer, avril 2025

1 commentaires

GN⁺ 2025-04-20

Avis Hacker News

Le fait que des développeurs d’apps intègrent des SDK tiers pour monétiser fait partie du problème, et je pense qu’ils doivent être tenus responsables de la distribution de logiciels malveillants à leurs utilisateurs
- Je soupçonne que beaucoup de SDK posent ce genre de problème
- Personnellement, je préfère éviter l’addiction aux dépendances et développer moi-même
- Des acteurs malveillants exploitent l’addiction aux dépendances des développeurs modernes pour tendre des pièges
Il existe, sur iOS, Android, MacOS et Windows, un marché où l’on fait intégrer aux développeurs d’apps des bibliothèques qui revendent la bande passante réseau des utilisateurs
- C’est lié à la raison pour laquelle Cloudflare et Google demandent des CAPTCHA
- Je ne comprends pas que Play Protect, MS Defender et l’antivirus d’Apple ne détectent pas ce type de logiciel malveillant
- Qu’une bibliothèque SDK transforme l’appareil d’un utilisateur en partie d’un botnet est un exemple évident de cheval de Troie
Le problème du web, c’est que pour que les données restent lisibles, il faut qu’un certain administrateur système continue de maintenir le serveur
- Avec un modèle d’adressage par contenu, on peut supprimer la contrainte d’unicité
- Les scrapers IA pourraient partager les données entre eux sans faire peser la charge sur la source d’origine
Les logiciels de partage réseau devraient être classés comme applications non désirées
- Ils s’installent avec ce que l’utilisateur voulait réellement installer et abusent des ressources
- J’aimerais utiliser Wireshark pour vérifier s’il y a une activité suspecte
- Il faudrait un dépôt public des apps qui se comportent ainsi
Les apps qui incluent des logiciels malveillants devraient être mises en quarantaine immédiatement
- Même sans causer de dommages directs, cela reste un logiciel malveillant
Le web scraping devrait être considéré comme un abus, et les serveurs web devraient le bloquer
- Des plateformes comme Youtube seront probablement d’accord avec ça
Je me demande si quelqu’un a compilé une liste des logiciels qui utilisent ce type de bibliothèques
- Ce serait bien de savoir quelles apps éviter
Les proxys IP résidentiels ont la faiblesse de changer souvent d’adresse IP
- Les IP provenant du même fournisseur de proxy peuvent être détectées facilement
- Je développe une plateforme open source de prévention de la fraude, et la détection des faux utilisateurs venant de proxys résidentiels fait partie des cas d’usage
Il n’y a pas encore de preuve claire à ce stade, mais ce type de comportement peut être détecté facilement
- iOS dispose de fonctions permettant de vérifier les connexions d’une app
- Android n’a pas cette fonction, mais on peut utiliser des pare-feu tiers comme pcapdroid
- Sur MacOS, on peut utiliser Little Snitch, et sur Windows, Fort Firewall
- Peu de gens utilisent ce type d’apps, mais ils sont susceptibles de signaler les apps qui utilisent leur appareil comme botnet
Je me demande s’il existe une liste de serveurs c&c à ajouter à Pihole et autres

« Le web est cassé » — Et si votre appareil devenait un botnet attaquant les autres ? Crawling IA et écosystème caché des proxys

Le botnet furtif, sa véritable nature : Botnet Part 1

L’attaque d’un botnet contre un serveur mail personnel

La véritable nature du botnet : infection des appareils via un SDK

Le mode opératoire : attaque distribuée conçue pour échapper à la détection

L’inefficacité du blocage par ASN

Réponse apportée et philosophie

La réalité de l’écosystème des botnets

Conclusion

# Le web est cassé : Botnet Part 2

L’explosion des crawlers web et son contexte

Une nouvelle forme de botnet : infection des utilisateurs via un SDK

Cas emblématique : Infatica

Pourquoi est-ce un problème ?

Les victimes : à la fois les particuliers et les petits serveurs

L’emballage sous le nom de "proxy résidentiel"

Conclusion : le crawling web est désormais dans l’abus

Recommandations et enjeux

À lire aussi

1 commentaires

Avis Hacker News