Analyse des documents API fuités de Google Search

xguru · 2024-05-29T11:53:51+09:00

Il y a quelque temps, j’ai reçu un e-mail d’une source anonyme affirmant qu’un grand volume de documents sur l’API de recherche de Google avait fuité L’authenticité des documents a été confirmée par d’anciens employés de Google, et des informations supplémentaires ont aussi été obtenues via des échanges avec certains ex-employés Principales affirmations Google a répété qu’il n’utilisait pas de signaux utilisateurs basés sur les clics, mais les documents fuités contredisent cela Les affirmations de Google selon lesquelles les sous-domaines ne sont pas évalués séparément, qu’il n’existe pas de sandbox pour les nouveaux sites web et que l’âge du domaine n’est pas pris en compte sont également démenties Dès le départ, l’équipe Search de Google a eu besoin des données de clickstream de nombreux utilisateurs du web (toutes les URL visitées depuis le navigateur) pour améliorer la qualité des résultats de recherche Le système NavBoost cité par le DoJ collectait des données depuis le PageRank de la Google Toolbar, et a été une motivation majeure dans le développement du navigateur Chrome pour obtenir davantage de données de clickstream NavBoost analyse le nombre de recherches pour des mots-clés donnés, le nombre de clics sur les résultats, ainsi que les clics courts et longs afin d’évaluer l’intention utilisateur ; si les clics sur des vidéos ou des images sont nombreux, il déclenche des fonctionnalités vidéo ou image pour les requêtes associées à NavBoost Utilisation des données de clic : Google utilise l’historique des cookies, les données de Chrome connecté et la détection de motifs pour empêcher les fraudes au clic manuelles et automatiques, puis analyse les clics et l’engagement des utilisateurs pour les refléter dans les résultats de recherche Évaluation de la qualité des sites : les données de NavBoost sont utilisées pour évaluer la qualité globale d’un site (appelée Panda), ce qui entraîne selon cette évaluation une promotion ou une rétrogradation dans le classement NavBoost évalue aussi les données de clic en tenant compte des données géographiques, avec une segmentation au niveau des pays et des États/provinces Une liste blanche est appliquée aux résultats liés au COVID-19 et aux élections afin de mettre certains sites en avant Vérification de la fiabilité des documents Une partie de ces éléments recoupe des informations déjà révélées dans l’affaire Google/DoJ, mais l’essentiel est inédit La source anonyme s’est révélée le 28/05 ; il s’agit d’Erfan Azimi (spécialiste SEO) Confirmation par d’anciens employés de Google : deux des trois anciens employés de Google ont confirmé la fiabilité des documents Revue technique : le spécialiste SEO technique Mike King a examiné les documents et confirmé leur crédibilité Google API Contents Warehouse ? Objectif de cette documentation API : il s’agit d’une documentation destinée à aider les équipes Google à comprendre les éléments de données disponibles pour leurs projets Voie de fuite : les documents ont été brièvement rendus publics sur GitHub, et c’est durant cette période qu’ils ont fuité Principales découvertes #1: Navboost et l’utilisation des données de clic Filtrage des données de clic : Google filtre les clics pris en compte par ses systèmes de ranking et mesure la durée des clics ainsi que les impressions. Il existe des mécanismes pour écarter les clics qu’il ne souhaite pas intégrer au système de classement, et conserver ceux qu’il veut y inclure Il semble mesurer la durée des clics (par exemple lorsqu’un internaute clique sur un résultat puis revient rapidement en arrière, insatisfait de la réponse trouvée) ainsi que le nombre d’impressions #2: Utilisation du clickstream du navigateur Chrome Données de clickstream de Chrome : Google utilise les données de clic du navigateur Chrome pour déterminer les Sitelinks (les URL populaires d’un site web) #3: Listes blanches pour les voyages, le COVID et la politique Existence de listes blanches : certains domaines sont mis en avant dans les résultats liés aux voyages, au COVID et aux élections #4: Utilisation des retours des quality raters Données des quality raters : les évaluations des quality raters pourraient être utilisées directement dans le système de recherche #5: Utilisation des données de clic pour pondérer le ranking des liens Classification de l’index de liens : les données de clic sont utilisées pour classer l’index de liens en haute, moyenne et basse qualité Principaux enseignements pour les marketeurs Importance de la marque : Google favorise les grandes marques dans le classement Moindre importance des facteurs E-E-A-T : les critères d’expérience, d’expertise, d’autorité et de fiabilité mis en avant par certains SEO pourraient ne pas être intégrés directement au classement Experience, Expertise, Authoritativeness, Trustworthiness L’intention utilisateur et les schémas de clic sont des facteurs de ranking plus importants que le contenu et les liens L’importance des facteurs de ranking traditionnels comme le PageRank ou l’ancre de lien est en baisse Difficulté du SEO : pour les PME et les nouveaux créateurs/éditeurs, il devient plus difficile de concurrencer les grandes marques en SEO

(sparktoro.com)

29 points par xguru 2024-05-29 | 3 commentaires | Partager sur WhatsApp

Il y a quelque temps, j’ai reçu un e-mail d’une source anonyme affirmant qu’un grand volume de documents sur l’API de recherche de Google avait fuité
L’authenticité des documents a été confirmée par d’anciens employés de Google, et des informations supplémentaires ont aussi été obtenues via des échanges avec certains ex-employés

Principales affirmations

Google a répété qu’il n’utilisait pas de signaux utilisateurs basés sur les clics, mais les documents fuités contredisent cela
Les affirmations de Google selon lesquelles les sous-domaines ne sont pas évalués séparément, qu’il n’existe pas de sandbox pour les nouveaux sites web et que l’âge du domaine n’est pas pris en compte sont également démenties
Dès le départ, l’équipe Search de Google a eu besoin des données de clickstream de nombreux utilisateurs du web (toutes les URL visitées depuis le navigateur) pour améliorer la qualité des résultats de recherche
Le système NavBoost cité par le DoJ collectait des données depuis le PageRank de la Google Toolbar, et a été une motivation majeure dans le développement du navigateur Chrome pour obtenir davantage de données de clickstream
NavBoost analyse le nombre de recherches pour des mots-clés donnés, le nombre de clics sur les résultats, ainsi que les clics courts et longs afin d’évaluer l’intention utilisateur ; si les clics sur des vidéos ou des images sont nombreux, il déclenche des fonctionnalités vidéo ou image pour les requêtes associées à NavBoost
Utilisation des données de clic : Google utilise l’historique des cookies, les données de Chrome connecté et la détection de motifs pour empêcher les fraudes au clic manuelles et automatiques, puis analyse les clics et l’engagement des utilisateurs pour les refléter dans les résultats de recherche
Évaluation de la qualité des sites : les données de NavBoost sont utilisées pour évaluer la qualité globale d’un site (appelée Panda), ce qui entraîne selon cette évaluation une promotion ou une rétrogradation dans le classement
NavBoost évalue aussi les données de clic en tenant compte des données géographiques, avec une segmentation au niveau des pays et des États/provinces
Une liste blanche est appliquée aux résultats liés au COVID-19 et aux élections afin de mettre certains sites en avant

Vérification de la fiabilité des documents

Une partie de ces éléments recoupe des informations déjà révélées dans l’affaire Google/DoJ, mais l’essentiel est inédit
La source anonyme s’est révélée le 28/05 ; il s’agit d’Erfan Azimi (spécialiste SEO)
Confirmation par d’anciens employés de Google : deux des trois anciens employés de Google ont confirmé la fiabilité des documents
Revue technique : le spécialiste SEO technique Mike King a examiné les documents et confirmé leur crédibilité

Google API Contents Warehouse ?

Objectif de cette documentation API : il s’agit d’une documentation destinée à aider les équipes Google à comprendre les éléments de données disponibles pour leurs projets
Voie de fuite : les documents ont été brièvement rendus publics sur GitHub, et c’est durant cette période qu’ils ont fuité

Principales découvertes

#1: Navboost et l’utilisation des données de clic

Filtrage des données de clic : Google filtre les clics pris en compte par ses systèmes de ranking et mesure la durée des clics ainsi que les impressions.
Il existe des mécanismes pour écarter les clics qu’il ne souhaite pas intégrer au système de classement, et conserver ceux qu’il veut y inclure
Il semble mesurer la durée des clics (par exemple lorsqu’un internaute clique sur un résultat puis revient rapidement en arrière, insatisfait de la réponse trouvée) ainsi que le nombre d’impressions

#2: Utilisation du clickstream du navigateur Chrome

Données de clickstream de Chrome : Google utilise les données de clic du navigateur Chrome pour déterminer les Sitelinks (les URL populaires d’un site web)

#3: Listes blanches pour les voyages, le COVID et la politique

Existence de listes blanches : certains domaines sont mis en avant dans les résultats liés aux voyages, au COVID et aux élections

#4: Utilisation des retours des quality raters

Données des quality raters : les évaluations des quality raters pourraient être utilisées directement dans le système de recherche

#5: Utilisation des données de clic pour pondérer le ranking des liens

Classification de l’index de liens : les données de clic sont utilisées pour classer l’index de liens en haute, moyenne et basse qualité

Principaux enseignements pour les marketeurs

Importance de la marque : Google favorise les grandes marques dans le classement
Moindre importance des facteurs E-E-A-T : les critères d’expérience, d’expertise, d’autorité et de fiabilité mis en avant par certains SEO pourraient ne pas être intégrés directement au classement
- Experience, Expertise, Authoritativeness, Trustworthiness
L’intention utilisateur et les schémas de clic sont des facteurs de ranking plus importants que le contenu et les liens
L’importance des facteurs de ranking traditionnels comme le PageRank ou l’ancre de lien est en baisse
Difficulté du SEO : pour les PME et les nouveaux créateurs/éditeurs, il devient plus difficile de concurrencer les grandes marques en SEO

3 commentaires

yangeok 2024-06-09

Alors, pourquoi ne pas tout simplement empêcher le bouton Retour de fonctionner ? lol

wkang586 2024-06-03

Je m’en doutais vaguement, mais le voir étalé ainsi, ça fait vraiment vriller le cerveau...
Jusqu’à Navboost, on peut encore se dire que c’est compréhensible...
Mais la liste blanche, là, c’est choquant. On l’appelle joliment « liste blanche », mais c’est une politique de discrimination totalement assumée.

xguru 2024-05-29

Documentation divulguée de Google Content API Warehouse
https://hexdocs.pm/google_api_content_warehouse/0.4.0/…