Analyse empirique de la façon dont la recherche IA de Google lit les contenus

L’expert SEO Dan Petrovic (DEJAN) a analysé les données brutes de l’API Google Gemini et a montré pour la première fois de manière empirique quelles phrases la recherche IA de Google (basée sur Gemini) extrait des pages web comme fondement de réponse (grounding snippet).

Principales découvertes :

La question est décomposée en plusieurs sous-requêtes via le query fanout
Pour chaque sous-requête, 5 à 20 pages sont sélectionnées, puis la pertinence de chaque phrase par rapport à la requête est notée
Le critère le plus important = la similarité sémantique de la phrase (les sections sans rapport avec la requête sont ignorées en bloc)
L’introduction (premier paragraphe) est presque toujours extraite même si sa pertinence est faible → forte présence d’un lead bias
Les éléments structurels comme la table des matières, les en-têtes ou les extraits de code sont eux aussi traités comme des phrases ordinaires et reçoivent un score
Les phrases sélectionnées sont reliées par … pour former un snippet, utilisé ensuite comme base citée lors de la génération de la réponse finale

En conclusion, la recherche IA de Google ne repose pas sur une interprétation libre de l’IA, mais sur un processus de notation fine de la pertinence au niveau de la phrase + sélection.
→ Cela fournit un insight concret : il devient plus probable d’être cité dans une réponse IA si le message clé est placé fortement dans l’introduction et si chaque phrase est sémantiquement étroitement liée à la requête.

Petrovic a également publié un outil de démonstration qui imite ce mécanisme.

https://aisparkup.com/posts/9618

Analyse empirique de la façon dont la recherche IA de Google lit les contenus

À lire aussi

Aucun commentaire pour le moment.