Analyse des documents API fuités de Google Search
(sparktoro.com)- Il y a quelque temps, j’ai reçu un e-mail d’une source anonyme affirmant qu’un grand volume de documents sur l’API de recherche de Google avait fuité
- L’authenticité des documents a été confirmée par d’anciens employés de Google, et des informations supplémentaires ont aussi été obtenues via des échanges avec certains ex-employés
Principales affirmations
- Google a répété qu’il n’utilisait pas de signaux utilisateurs basés sur les clics, mais les documents fuités contredisent cela
- Les affirmations de Google selon lesquelles les sous-domaines ne sont pas évalués séparément, qu’il n’existe pas de sandbox pour les nouveaux sites web et que l’âge du domaine n’est pas pris en compte sont également démenties
- Dès le départ, l’équipe Search de Google a eu besoin des données de clickstream de nombreux utilisateurs du web (toutes les URL visitées depuis le navigateur) pour améliorer la qualité des résultats de recherche
- Le système NavBoost cité par le DoJ collectait des données depuis le PageRank de la Google Toolbar, et a été une motivation majeure dans le développement du navigateur Chrome pour obtenir davantage de données de clickstream
- NavBoost analyse le nombre de recherches pour des mots-clés donnés, le nombre de clics sur les résultats, ainsi que les clics courts et longs afin d’évaluer l’intention utilisateur ; si les clics sur des vidéos ou des images sont nombreux, il déclenche des fonctionnalités vidéo ou image pour les requêtes associées à NavBoost
- Utilisation des données de clic : Google utilise l’historique des cookies, les données de Chrome connecté et la détection de motifs pour empêcher les fraudes au clic manuelles et automatiques, puis analyse les clics et l’engagement des utilisateurs pour les refléter dans les résultats de recherche
- Évaluation de la qualité des sites : les données de NavBoost sont utilisées pour évaluer la qualité globale d’un site (appelée Panda), ce qui entraîne selon cette évaluation une promotion ou une rétrogradation dans le classement
- NavBoost évalue aussi les données de clic en tenant compte des données géographiques, avec une segmentation au niveau des pays et des États/provinces
- Une liste blanche est appliquée aux résultats liés au COVID-19 et aux élections afin de mettre certains sites en avant
Vérification de la fiabilité des documents
- Une partie de ces éléments recoupe des informations déjà révélées dans l’affaire Google/DoJ, mais l’essentiel est inédit
- La source anonyme s’est révélée le 28/05 ; il s’agit d’Erfan Azimi (spécialiste SEO)
- Confirmation par d’anciens employés de Google : deux des trois anciens employés de Google ont confirmé la fiabilité des documents
- Revue technique : le spécialiste SEO technique Mike King a examiné les documents et confirmé leur crédibilité
Google API Contents Warehouse ?
- Objectif de cette documentation API : il s’agit d’une documentation destinée à aider les équipes Google à comprendre les éléments de données disponibles pour leurs projets
- Voie de fuite : les documents ont été brièvement rendus publics sur GitHub, et c’est durant cette période qu’ils ont fuité
Principales découvertes
#1: Navboost et l’utilisation des données de clic
- Filtrage des données de clic : Google filtre les clics pris en compte par ses systèmes de ranking et mesure la durée des clics ainsi que les impressions.
- Il existe des mécanismes pour écarter les clics qu’il ne souhaite pas intégrer au système de classement, et conserver ceux qu’il veut y inclure
- Il semble mesurer la durée des clics (par exemple lorsqu’un internaute clique sur un résultat puis revient rapidement en arrière, insatisfait de la réponse trouvée) ainsi que le nombre d’impressions
#2: Utilisation du clickstream du navigateur Chrome
- Données de clickstream de Chrome : Google utilise les données de clic du navigateur Chrome pour déterminer les Sitelinks (les URL populaires d’un site web)
#3: Listes blanches pour les voyages, le COVID et la politique
- Existence de listes blanches : certains domaines sont mis en avant dans les résultats liés aux voyages, au COVID et aux élections
#4: Utilisation des retours des quality raters
- Données des quality raters : les évaluations des quality raters pourraient être utilisées directement dans le système de recherche
#5: Utilisation des données de clic pour pondérer le ranking des liens
- Classification de l’index de liens : les données de clic sont utilisées pour classer l’index de liens en haute, moyenne et basse qualité
Principaux enseignements pour les marketeurs
- Importance de la marque : Google favorise les grandes marques dans le classement
- Moindre importance des facteurs E-E-A-T : les critères d’expérience, d’expertise, d’autorité et de fiabilité mis en avant par certains SEO pourraient ne pas être intégrés directement au classement
- Experience, Expertise, Authoritativeness, Trustworthiness
- L’intention utilisateur et les schémas de clic sont des facteurs de ranking plus importants que le contenu et les liens
- L’importance des facteurs de ranking traditionnels comme le PageRank ou l’ancre de lien est en baisse
- Difficulté du SEO : pour les PME et les nouveaux créateurs/éditeurs, il devient plus difficile de concurrencer les grandes marques en SEO
3 commentaires
Alors, pourquoi ne pas tout simplement empêcher le bouton Retour de fonctionner ? lol
Je m’en doutais vaguement, mais le voir étalé ainsi, ça fait vraiment vriller le cerveau...
Jusqu’à
Navboost, on peut encore se dire que c’est compréhensible...Mais la liste blanche, là, c’est choquant. On l’appelle joliment « liste blanche », mais c’est une politique de discrimination totalement assumée.
Documentation divulguée de Google Content API Warehouse
https://hexdocs.pm/google_api_content_warehouse/0.4.0/…