La recherche Google submergée par une attaque massive de spam
- Les résultats de recherche de Google subissent depuis plusieurs jours une attaque de spam, au point d’être dans un état totalement incontrôlable.
- De nombreux domaines se positionnent sur des centaines de milliers de mots-clés chacun, ce qui laisse penser que l’attaque pourrait concerner des millions de requêtes.
Comment l’algorithme de Google peut être exploité
- Les sites de spam semblent exploiter au moins trois failles potentielles dans la manière dont Google classe les sites web.
- Les requêtes sur lesquelles ces sites se classent sont peu concurrentielles, ce qui les rend plus faciles à positionner.
- Les opportunités exploitées concernent l’algorithme de recherche locale, les mots-clés de longue traîne, ainsi que l’avantage des domaines récemment enregistrés.
- Les nouveaux sites bénéficient d’un court laps de temps pendant lequel l’algorithme de Google évalue encore leur nature, ce qui leur permet de se classer sur certaines requêtes.
Les liens aident Google à trouver les sites de spam
- Cela a été mis en lumière par un billet de Bill Hartzer, qui a utilisé l’outil de backlinks de Majestic pour révéler le réseau de liens de plusieurs sites de spam.
- Beaucoup d’efforts ont été consacrés à la création de ce réseau de backlinks, mais les liens ne sont pas, en réalité, le facteur déterminant de leur bon classement.
- En revanche, ils aident Google à découvrir et à crawler de nouveaux sites de spam, qui finissent ensuite par être classés.
Un spam incontrôlable dans les SERP de Google
- Plusieurs sites se classent sur des expressions de longue traîne faciles à positionner, ainsi que sur des requêtes comportant une composante de recherche locale.
- Le concept de longue traîne existe depuis près de 20 ans et a été popularisé par le livre "The Long Tail", publié en 2006.
- Les sites de spam peuvent se classer sur des expressions peu concurrentielles, et s’en servent pour se positionner en peu de temps sur des centaines de milliers de mots-clés.
À quoi ressemblent les pages de spam
- Il est impossible de visiter les pages de spam directement avec un navigateur.
- Les sites de spam redirigent automatiquement vers d’autres domaines.
- Le site de spam a été visité à l’aide du testeur Rich Results de Google afin d’enregistrer le HTML de la page.
Un domaine se classe sur plus de 300 000 mots-clés
- La feuille de calcul envoyée par Bill contenait la liste des requêtes sur lesquelles un site de spam se classait.
- Un site de spam se classait sur plus de 300 000 expressions-clés.
Pourquoi cette technique de spam est efficace
- La recherche locale utilise un algorithme différent de celui de la recherche non locale.
- L’algorithme de recherche locale est plus permissif envers les sites à ancrage local pour le classement.
- Google est au courant de ce problème de spam au moins depuis le 19 décembre, comme l’a confirmé un tweet de Danny Sullivan.
L’avis de GN⁺
- Le point le plus important de cet article est que les résultats de recherche Google sont vulnérables à une attaque de spam à grande échelle, ce qui peut affecter la fiabilité du moteur de recherche.
- Si cette attaque est efficace, c’est parce qu’elle exploite certaines vulnérabilités spécifiques de l’algorithme de Google, ce qui souligne la nécessité pour l’entreprise de l’améliorer.
- Ce texte est intéressant non seulement pour son aspect technique, mais aussi parce qu’il montre que même une grande entreprise technologique comme Google peut encore faire face à des problèmes inattendus.
7 commentaires
Dans le document web de signalement du spam Google, lorsque vous signalez un domaine du type
abc.abc.uk/trashasda, signalez-le sous la formeabc.uk, puis ajoutezabc.abc.uk/sitemap.xmldans le champ de recherche qui permet d’identifier précisément le problème. Il semble que le site soit déjà solidement préparé comme solution et qu’il soit structuré de façon à recréer immédiatement des pages dérivées lorsqu’un utilisateur ordinaire y accède. La bonne manière d’y répondre est d’effectuer des signalements actifs. À chaque clic enregistré par Google, de nouvelles pages de spam sont recréées, et il existe aussi un processus qui pousse les bots à y accéder viagoogle.com/url,image.google.com/url, la redirection Naver, etc., avant de les rediriger de nouveau vers les pages de spamgénérées. Ne cliquez donc pas dessus : copiez seulement le lien pour le signaler. Tant que l’algorithme de redirection explicitement indiqué pargoogle.com/urlne sera pas supprimé, il semble que le problème actuel continuera à se manifester.(spam, signalement de page web spam)
Si vous signalez une page web relevant de la solution anti-spam ci-dessus,
il faut renseigner au total 5 champs : dans le premier, le domaine principal, et dans les 4 URL supplémentaires, la liste des pages dérivées créées à partir de celui-ci. Il est également préférable d’indiquer dans la requête de recherche le sitemap de ce domaine. Quand on ouvre le sitemap, on voit qu’ils ont adopté une stratégie où des pages comme
/new/asdasdsont générées dès qu’on y accède ; ainsi, si vous rédigez un signalement de document, cela finit par pousser Google à générer en plus des pages qui s’échappent lors de la consultation. C’est un adversaire particulièrement méticuleux, donc il faut signaler le domaine lui-même.Dans mon cas
(h a été remplacé par x, et / par |)
xttp:||baddomain.com
xttp:||baddomain.com/blogs
xttp:||baddomain.com/blogs/asdasd1
xttp:||baddomain.com/asdasd1
xttp:||baddomain.com/asdasd2
Après avoir rédigé le signalement comme ceci,
si c’est un cas où tout est pourri à partir du sous-domaine, j’envoie un signalement avec le mot-clé
site:*baddomain.comrédigé de cette manière.Ensuite, si le site lui-même est entièrement du spam, j’envoie aussi en parallèle un signalement de site de phishing.
Ironiquement, les logiciels de ces sites web de spam ont bien des tag managers intégrés, et malgré l’utilisation de sites comme https://picsum.photos, ils sont quand même correctement indexés. Cela signifie aussi que Google ne les vérifie pas. Même lorsque l’activité dépasse largement le cadre normal du spam, si des pages web de spam + des publicités AdWords sont en place, les signalements n’y changent pas grand-chose, car des pages dérivées sont créées rapidement au rythme du trafic publicitaire entrant. Le fait que ces sites de spam utilisent normalement des tag managers est particulièrement glaçant.
Cela fait un mois que je dépose des signalements de spam, et si vous les signalez comme documents spam ou frauduleux tout en les signalant aussi sur la page de signalement des sites de phishing, le nettoyage sera plus rapide. J’inclus aussi cette page, mais s’il s’agit d’un domaine de premier niveau comme
abc.abc.uk, il faut saisirabc.ukafin d’aider à traiter le domaine lui-même. C’est devenu une tâche quotidienne laissée aux webmasters.On voyait déjà depuis longtemps que la qualité globale des résultats de recherche de Google se dégradait, mais si l’entreprise subit ainsi des attaques massives en peu de temps, encore plus de gens finiront sans doute par ne plus faire confiance aux résultats de recherche de Google.
Avis de Hacker News
Les sites de spam vérifient l’adresse IP de Googlebot
Expérience d’un utilisateur passé au moteur de recherche Kagi
Augmentation des sites qui fournissent des quantités excessives de texte pour répondre à des questions simples
Observations sur la baisse de qualité des résultats de recherche Google
Remise en question des moteurs de recherche
Critiques des changements d’algorithme du moteur de recherche de Google
Affirmation selon laquelle Google a renoncé à la recherche organique
Mise en avant des limites du moteur de recherche de Google
Partage d’une expérience de migration vers Bing
Critique du comportement de Google en tant qu’entreprise publicitaire