1 points par GN⁺ 1 시간 전 | 1 commentaires | Partager sur WhatsApp
  • auto-identity-remove est un outil qui recherche des sites de courtiers en données à partir du nom et de la localisation, puis soumet automatiquement les formulaires d’opt-out afin d’aider à supprimer des informations personnelles de plus de 500 sites de recherche de personnes et bases de données de courtiers en données chaque mois
  • Le flux d’exécution comprend la recherche par courtier, la détection de listes de profils spécifiques, la soumission des formulaires d’opt-out, le traitement des CAPTCHA si nécessaire, l’ignorance des éléments récemment terminés, la notification des résultats et l’ouverture dans le navigateur des sites nécessitant un traitement manuel
  • Le suivi d’état enregistre dans state.json la date du dernier succès et l’historique d’exécution, et l’intervalle de revérification par défaut est de 90 jours, ce qui évite de renvoyer à chaque fois des opt-out déjà complétés
  • Les formulaires avec CAPTCHA peuvent être traités via CapSolver, pour un coût d’environ 0,001 $ par résolution ; si ce n’est pas configuré, le site concerné passe dans la liste des traitements manuels
  • Les prérequis sont Node.js 18+, macOS, Linux ou Windows, ainsi que les navigateurs Playwright ; setup.js guide la saisie des informations personnelles, des alias, de la clé CapSolver, des comptes à usage unique, des notifications et de l’enregistrement d’une planification mensuelle
  • La tâche mensuelle est enregistrée pour s’exécuter le 1er de chaque mois à 9 h, avec détection automatique et utilisation de launchd, systemd, crontab ou schtasks selon la plateforme
  • L’exécution via Docker est également prise en charge ; l’image officielle Playwright est utilisée avec Chromium et les dépendances système incluses, et il faut monter state.json pour conserver l’historique des actions terminées entre les conteneurs
  • Les notifications prennent en charge un récapitulatif des résultats via iMessage sur macOS ; dans un environnement headless ou Docker, notify.webhook peut envoyer un POST {"text": "<summary>"} à ntfy.sh, à un Slack incoming webhook ou à un webhook Discord
  • La prise en charge des courtiers est divisée en deux niveaux ; les 42 courtiers explicites répertoriés dans STATUS.md sont associés à des sélecteurs dédiés, tandis qu’environ 490 autres sont traités par une approche heuristique qui tente successivement les boutons Do Not Sell, OneTrust·TrustArc·Osano, les formulaires génériques, puis la recherche de liens DSAR
  • ✅ Submitted signifie seulement que le courtier a reçu le formulaire, sans garantie de suppression ; node watcher.js --verify relance une recherche sur les éléments enregistrés comme réussis et les classe en VERIFIED CLEAR, STILL LISTED ou UNVERIFIABLE
  • Parmi les principales cibles prises en charge en traitement automatique figurent Spokeo, WhitePages, FastPeopleSearch, TruePeopleSearch, BeenVerified, Radaris, Acxiom, LexisNexis, ZoomInfo et Clearbit ; Google Results About You et Google Outdated Content s’ouvrent en traitement manuel
  • Pour les utilisateurs hors États-Unis, l’outil prend en charge le code pays, Province/Region, le code postal, la conservation du numéro de téléphone dans son format d’origine et la saisie des champs de sélection du pays ; toutefois, les courtiers US-only comme Spokeo, WhitePages ou FastPeopleSearch sont automatiquement ignorés si le pays configuré n’est pas US
  • --dry-run effectue uniquement la navigation sur les sites et le remplissage des formulaires sans soumission, tandis que la fonctionnalité expérimentale --pollute N soumet de fausses fiches à certains courtiers marqués acceptsBogus: true ; elle est désactivée par défaut car des violations potentielles des conditions d’utilisation et des risques juridiques sont explicitement signalés
  • config.json, qui contient des données personnelles, state.json, qui conserve l’historique des opt-out, ainsi que les journaux d’exécution sont ignorés par git, et le dépôt est sous licence MIT

1 commentaires

 
GN⁺ 1 시간 전
Commentaires Hacker News
  • Lassé des appels et SMS de spam, j’ai créé un script qui automatise chaque mois les procédures d’opt-out de plus de 500 data brokers
    Le point où j’ai besoin d’aide, c’est que l’approche heuristique rate beaucoup de cas. Chaque site a souvent son propre parcours, donc quatre stratégies génériques ne suffisent pas à les couvrir
    Il faudrait quelqu’un pour vérifier quels sites génériques fonctionnent réellement et lesquels échouent en silence, ajouter des définitions explicites pour les sites à forte valeur, tester hors environnement macOS, et gérer les flux de vérification par e-mail
    Repo : https://github.com/stephenlthorn/auto-identity-remove
    Le dépôt ne contient aucune donnée personnelle ; le script de configuration demande les informations en local et elles sont dans le .gitignore
    • Je me demande dans quelle mesure l’approche actuelle fonctionne sur beaucoup de sites. Le dépôt donne clairement l’impression d’avoir été vibe codé, ou au minimum beaucoup écrit avec de l’IA, donc il est difficile de comprendre ce qui est déjà fait et ce qu’il reste à faire pour que ça fonctionne correctement
      Pour la vérification par e-mail, on pourrait aussi temporairement se contenter d’indiquer « cliquez sur le lien de confirmation dans un e-mail de tel expéditeur ». Lire de façon fiable de vraies boîtes de réception sur plusieurs fournisseurs risque d’être difficile, car cela demanderait pratiquement un client mail complet
      Et c’est peut-être hors sujet, mais ce commentaire lui-même a l’air généré par une IA. Si c’est le cas, cela enfreint les règles du site

      Don't post generated comments or AI-edited comments. HN is for conversation between humans.
      https://news.ycombinator.com/newsguidelines.html#generated

  • Je l’ai essayé depuis le Canada, et on m’a recommandé de m’inscrire à d’autres services comme Spokeo, on m’a demandé un accès e-mail via l’app Apple Mail que je n’utilise pas, il y avait beaucoup de 404, et de nombreux sites nécessitaient une intervention manuelle
    L’idée est bonne, mais il y a encore énormément de choses à corriger pour que ce soit utile de façon générale. Les codes postaux non numériques et les adresses hors des États-Unis semblent casser une bonne partie de l’automatisation
    • C’est assez étonnant de supposer que tout le monde utilise par défaut les services Apple
  • Vers 2011, les Yellow Pages distribuaient encore un annuaire papier à toutes les adresses de l’État. Le lendemain, notre ville envoyait un camion de recyclage temporaire dédié pour tous les récupérer, et tout le monde les jetait
    Avec des collègues, on a vu que le formulaire d’opt-out ne demandait que l’adresse. On avait envisagé d’automatiser l’envoi sur plusieurs mois pour toutes les adresses connues du pays afin de toutes les désinscrire, mais ça ne s’est jamais fait, et on riait en imaginant à partir de quel pourcentage d’opt-out les développeurs web de Yellow Pages auraient convoqué une réunion de crise
    • À la même époque, mon frère louait quelques pièces de sa maison à des gens qui faisaient la distribution des annuaires. C’était dans un autre pays, mais Yellow Pages semblait être partout
      Les livreurs n’arrivaient plus à suivre et ont fini par empiler des tas d’annuaires pour les brûler. Comme personne ne regrettait les annuaires, il a fallu pas mal de temps avant qu’ils se fassent prendre
    • Chez Yellow Pages, ils auraient probablement fait semblant de ne pas recevoir les demandes d’opt-out, comme la moitié des entreprises de courrier publicitaire et des spammeurs
      J’ai pas mal essayé d’empêcher Uline d’envoyer deux ou trois fois par an son énorme catalogue papier à une boîte postale. Il y a bien un formulaire, mais ils ignorent simplement la demande
      https://www.uline.com/CustomerService/ULINE_FAQ_Ans?FAQ_ID=4...
    • En discutant de la confidentialité des données du projet avec Australia Post, je n’ai pas pu m’empêcher de plaisanter : « Vous ne diffusez pas régulièrement les données personnelles de millions de gens chaque année, en laissant ces informations devant leur porte à la vue de tous ? »
  • Ce qu’ils font n’améliore pas réellement la société ; dans une société saine, on devrait pouvoir l’interdire. Mais comme nous ne le faisons pas, on ne le peut pas
    • On peut tout à fait l’interdire. Sous le RGPD, il est bien plus difficile de collecter et vendre légalement des données personnelles à grande échelle
      Ça ne veut pas dire que ça n’arrive plus, mais cela donne une base juridique pour se défendre. noyb.eu / Max Schrems et d’autres font un travail excellent et très important sur ce front
  • « Résolution des CAPTCHA avec CapSolver (basé sur l’IA, environ 0,001 $ par résolution) » : mes soupçons étaient donc fondés. Je n’étais donc pas le seul à encore subir les CAPTCHA à l’ancienne
    • Cela dépend du type de CAPTCHA, mais si Apple, Cloudflare et Google se tournent vers la remote attestation pour vérifier qu’un humain est présent, ce n’est pas pour rien
      reCAPTCHA v3 Enterprise et MtCaptcha coûtent carrément 3 fois plus, à 3 $ les 1 000 résolutions. Cela en fait donc des CAPTCHA intéressants à cibler
    • Ça donne envie d’acheter un service payant de résolution de CAPTCHA pour se simplifier la vie
    • Il semble aussi exister une extension de navigateur : https://www.capsolver.com/products/browser-extension
  • On dirait que la seule dépendance à macOS, c’est launchd, et cette information serait utile à ajouter dans la documentation. Je ne sais pas si on peut simplement l’exécuter depuis le CLI
    Le support de systemd semble facile. Pour Windows, je ne sais pas trop ce qui se fait
    • Créer un service Windows est un peu plus difficile. Windows utilise de vraies API pour les services, au lieu de simplement s’appuyer sur le lancement de processus et le scripting
      Cela dit, avec le Planificateur de tâches, on peut programmer de plusieurs façons une exécution mensuelle, par exemple
    • Il suffit d’utiliser sc.exe ou tasksched
  • Ce qui m’intéresse le plus, c’est le suivi d’état et les chemins de repli manuels. Pour un outil comme celui-ci, il faudrait absolument un mode dry run / audit montrant quels champs vont être envoyés à quel broker avant le véritable envoi
    Le modèle de menace est ambigu : l’outil peut réduire l’exposition, mais un sélecteur cassé peut aussi divulguer des données personnelles au mauvais endroit
  • Je me demande si ce n’est pas en fait un très bon moyen d’automatiser l’envoi de mes informations à 500 data brokers
    • Je n’ai pas vérifié quelles informations il faut fournir à l’étape 3, mais si cela remplit et soumet automatiquement des formulaires d’opt-out, il faut sans doute plus que le nom et l’adresse
      Une bien meilleure solution serait de pousser une loi de type RGPD aux États-Unis
  • Au moins en Californie, le formulaire DROP devrait être disponible en ligne cet automne
    • En travaillant dans le secteur, le 1er août plane comme une épée de Damoclès sur environ 500 data brokers enregistrés en Californie
      C’est déjà ouvert aux consommateurs. Vous pouvez vous inscrire avec vos 275 000 voisins
  • Intéressant. Je me demande si quelqu’un l’a utilisé pendant un certain temps et si cela a réellement un effet sur la baisse du spam