1 points par GN⁺ 2023-12-24 | 7 commentaires | Partager sur WhatsApp

La recherche Google submergée par une attaque massive de spam

  • Les résultats de recherche de Google subissent depuis plusieurs jours une attaque de spam, au point d’être dans un état totalement incontrôlable.
  • De nombreux domaines se positionnent sur des centaines de milliers de mots-clés chacun, ce qui laisse penser que l’attaque pourrait concerner des millions de requêtes.

Comment l’algorithme de Google peut être exploité

  • Les sites de spam semblent exploiter au moins trois failles potentielles dans la manière dont Google classe les sites web.
  • Les requêtes sur lesquelles ces sites se classent sont peu concurrentielles, ce qui les rend plus faciles à positionner.
  • Les opportunités exploitées concernent l’algorithme de recherche locale, les mots-clés de longue traîne, ainsi que l’avantage des domaines récemment enregistrés.
  • Les nouveaux sites bénéficient d’un court laps de temps pendant lequel l’algorithme de Google évalue encore leur nature, ce qui leur permet de se classer sur certaines requêtes.

Les liens aident Google à trouver les sites de spam

  • Cela a été mis en lumière par un billet de Bill Hartzer, qui a utilisé l’outil de backlinks de Majestic pour révéler le réseau de liens de plusieurs sites de spam.
  • Beaucoup d’efforts ont été consacrés à la création de ce réseau de backlinks, mais les liens ne sont pas, en réalité, le facteur déterminant de leur bon classement.
  • En revanche, ils aident Google à découvrir et à crawler de nouveaux sites de spam, qui finissent ensuite par être classés.

Un spam incontrôlable dans les SERP de Google

  • Plusieurs sites se classent sur des expressions de longue traîne faciles à positionner, ainsi que sur des requêtes comportant une composante de recherche locale.
  • Le concept de longue traîne existe depuis près de 20 ans et a été popularisé par le livre "The Long Tail", publié en 2006.
  • Les sites de spam peuvent se classer sur des expressions peu concurrentielles, et s’en servent pour se positionner en peu de temps sur des centaines de milliers de mots-clés.

À quoi ressemblent les pages de spam

  • Il est impossible de visiter les pages de spam directement avec un navigateur.
  • Les sites de spam redirigent automatiquement vers d’autres domaines.
  • Le site de spam a été visité à l’aide du testeur Rich Results de Google afin d’enregistrer le HTML de la page.

Un domaine se classe sur plus de 300 000 mots-clés

  • La feuille de calcul envoyée par Bill contenait la liste des requêtes sur lesquelles un site de spam se classait.
  • Un site de spam se classait sur plus de 300 000 expressions-clés.

Pourquoi cette technique de spam est efficace

  • La recherche locale utilise un algorithme différent de celui de la recherche non locale.
  • L’algorithme de recherche locale est plus permissif envers les sites à ancrage local pour le classement.
  • Google est au courant de ce problème de spam au moins depuis le 19 décembre, comme l’a confirmé un tweet de Danny Sullivan.

L’avis de GN⁺

  • Le point le plus important de cet article est que les résultats de recherche Google sont vulnérables à une attaque de spam à grande échelle, ce qui peut affecter la fiabilité du moteur de recherche.
  • Si cette attaque est efficace, c’est parce qu’elle exploite certaines vulnérabilités spécifiques de l’algorithme de Google, ce qui souligne la nécessité pour l’entreprise de l’améliorer.
  • Ce texte est intéressant non seulement pour son aspect technique, mais aussi parce qu’il montre que même une grande entreprise technologique comme Google peut encore faire face à des problèmes inattendus.

7 commentaires

 
devstudyman7 2024-03-09

Dans le document web de signalement du spam Google, lorsque vous signalez un domaine du type abc.abc.uk/trashasda, signalez-le sous la forme abc.uk, puis ajoutez abc.abc.uk/sitemap.xml dans le champ de recherche qui permet d’identifier précisément le problème. Il semble que le site soit déjà solidement préparé comme solution et qu’il soit structuré de façon à recréer immédiatement des pages dérivées lorsqu’un utilisateur ordinaire y accède. La bonne manière d’y répondre est d’effectuer des signalements actifs. À chaque clic enregistré par Google, de nouvelles pages de spam sont recréées, et il existe aussi un processus qui pousse les bots à y accéder via google.com/url, image.google.com/url, la redirection Naver, etc., avant de les rediriger de nouveau vers les pages de spam générées. Ne cliquez donc pas dessus : copiez seulement le lien pour le signaler. Tant que l’algorithme de redirection explicitement indiqué par google.com/url ne sera pas supprimé, il semble que le problème actuel continuera à se manifester.

 
devstudyman7 2024-03-09

Si vous signalez une page web relevant de la solution anti-spam ci-dessus,
il faut renseigner au total 5 champs : dans le premier, le domaine principal, et dans les 4 URL supplémentaires, la liste des pages dérivées créées à partir de celui-ci. Il est également préférable d’indiquer dans la requête de recherche le sitemap de ce domaine. Quand on ouvre le sitemap, on voit qu’ils ont adopté une stratégie où des pages comme /new/asdasd sont générées dès qu’on y accède ; ainsi, si vous rédigez un signalement de document, cela finit par pousser Google à générer en plus des pages qui s’échappent lors de la consultation. C’est un adversaire particulièrement méticuleux, donc il faut signaler le domaine lui-même.

 
devstudyman7 2024-03-09

Dans mon cas
(h a été remplacé par x, et / par |)

xttp:||baddomain.com
xttp:||baddomain.com/blogs
xttp:||baddomain.com/blogs/asdasd1
xttp:||baddomain.com/asdasd1
xttp:||baddomain.com/asdasd2

Après avoir rédigé le signalement comme ceci,

si c’est un cas où tout est pourri à partir du sous-domaine, j’envoie un signalement avec le mot-clé site:*baddomain.com rédigé de cette manière.

Ensuite, si le site lui-même est entièrement du spam, j’envoie aussi en parallèle un signalement de site de phishing.

 
devstudyman7 2024-03-09

Ironiquement, les logiciels de ces sites web de spam ont bien des tag managers intégrés, et malgré l’utilisation de sites comme https://picsum.photos, ils sont quand même correctement indexés. Cela signifie aussi que Google ne les vérifie pas. Même lorsque l’activité dépasse largement le cadre normal du spam, si des pages web de spam + des publicités AdWords sont en place, les signalements n’y changent pas grand-chose, car des pages dérivées sont créées rapidement au rythme du trafic publicitaire entrant. Le fait que ces sites de spam utilisent normalement des tag managers est particulièrement glaçant.

 
devstudyman7 2024-03-09

Cela fait un mois que je dépose des signalements de spam, et si vous les signalez comme documents spam ou frauduleux tout en les signalant aussi sur la page de signalement des sites de phishing, le nettoyage sera plus rapide. J’inclus aussi cette page, mais s’il s’agit d’un domaine de premier niveau comme abc.abc.uk, il faut saisir abc.uk afin d’aider à traiter le domaine lui-même. C’est devenu une tâche quotidienne laissée aux webmasters.

 
aobamisaki 2023-12-24

On voyait déjà depuis longtemps que la qualité globale des résultats de recherche de Google se dégradait, mais si l’entreprise subit ainsi des attaques massives en peu de temps, encore plus de gens finiront sans doute par ne plus faire confiance aux résultats de recherche de Google.

 
GN⁺ 2023-12-24
Avis de Hacker News
  • Les sites de spam vérifient l’adresse IP de Googlebot

    • Si la visite est identifiée comme venant de Googlebot, ils affichent le contenu sur cette page
    • Les autres visiteurs sont redirigés vers un autre domaine contenant du contenu suspect
    • Par le passé, Google n’autorisait pas les sites à montrer un contenu différent à Googlebot et aux utilisateurs ordinaires, et imposait de lourdes pénalités en cas d’infraction
    • Cette politique a disparu, mais elle pourrait encore être utile si des outils automatisés fonctionnaient correctement
  • Expérience d’un utilisateur passé au moteur de recherche Kagi

    • Il est parfois difficile d’obtenir de bons résultats, mais Google ne fait pas mieux pour autant
    • L’utilisateur ajuste les résultats selon ses préférences en « boostant » et en « épinglant » des domaines
    • Il utilise toujours d’autres services Google comme Gmail et Google Maps, mais n’utilise plus la recherche
  • Augmentation des sites qui fournissent des quantités excessives de texte pour répondre à des questions simples

    • La vraie réponse se trouve en bas de page
    • En apparence, le contenu semble pertinent, mais il reste en réalité très générique
  • Observations sur la baisse de qualité des résultats de recherche Google

    • On ne sait pas exactement quand cette tendance a commencé, mais elle n’a peut-être pas reçu assez d’attention depuis longtemps
    • Les attaques de spam pourraient en être la phase finale
  • Remise en question des moteurs de recherche

    • Le concept de moteur de recherche à usage unique reposant sur l’exploration du web pourrait disparaître
    • Il vaudrait peut-être mieux remplacer Google par plusieurs systèmes adaptés à des usages spécifiques
    • Par exemple, chercher directement les questions techniques sur StackOverflow et Github, et les lieux locaux dans des bases de données fiables
    • Les moteurs de recherche pourraient évoluer en utilisant des LLM (grands modèles de langage) pour deviner le type de recherche et orienter vers des recherches spécialisées et organisées
  • Critiques des changements d’algorithme du moteur de recherche de Google

    • Google modifie parfois son algorithme, ce qui affecte le classement des sites
    • Ces changements peuvent faire remonter des résultats de faible qualité pour certaines requêtes
    • Par le passé, il était important de surveiller et de discuter ces mises à jour d’algorithme sur les sites liés au SEO
  • Affirmation selon laquelle Google a renoncé à la recherche organique

    • Même les utilisateurs compétents en SEO ont du mal à comprendre pourquoi les résultats Google sont classés de cette manière
    • Google rend les résultats payants plus attractifs afin d’inciter les utilisateurs à cliquer sur les publicités
  • Mise en avant des limites du moteur de recherche de Google

    • Il est utile pour trouver quelque chose de précis, mais sinon certains utilisent Bing, ChatGPT, Phind, etc.
    • Leur jeu apparaît parmi les premiers résultats sur Bing et d’autres moteurs, mais sur Google ce sont des sites publicitaires de spam qui passent avant
  • Partage d’une expérience de migration vers Bing

    • Avec les progrès de Bing grâce à ChatGPT, certains ont commencé à l’utiliser à la place de Google
    • Ce n’est pas parfait, mais les résultats sont jugés plus satisfaisants que ceux de Google
  • Critique du comportement de Google en tant qu’entreprise publicitaire

    • Après avoir créé un nouveau compte Gmail sans le communiquer à personne, un utilisateur a tout de même reçu des spams
    • Il paraît raisonnable de supposer que Google vend ses propres listes d’adresses e-mail