Google semble désormais nous détester

(twitter.com/pokemoncentral)

7 points par GN⁺ 2026-05-21 | 4 commentaires | Partager sur WhatsApp

Pokémon Central Wiki est depuis plus de 15 ans la principale source d’informations Pokémon en italien, mais a aujourd’hui presque disparu des résultats de recherche Google
Bien que wiki.pokemoncentral.it soit un grand wiki basé sur MediaWiki, une recherche site: ne renvoie littéralement que 4 résultats
La chute brutale de l’indexation a commencé autour de la core update de mars 2026, et la Search Console affiche massivement "crawled - currently not indexed"
Bing, DuckDuckGo et d’autres moteurs l’indexent normalement, ce qui laisse penser à un problème limité à Google ; le blocage de Google-Extended ne devrait pas affecter l’indexation selon la documentation
Des optimisations côté serveur, Cloudflare, balises Open Graph et schema.org, ainsi que SWR ont été mises en place, sans effet pour l’instant, et la cause reste inconnue

Chute brutale de l’indexation dans la recherche Google

Pokémon Central Wiki est depuis plus de 15 ans la source la plus connue d’informations Pokémon en italien, mais n’apparaît presque plus dans les résultats de recherche Google
wiki.pokemoncentral.it fonctionne avec MediaWiki, le logiciel open source utilisé par Wikipédia, et fait partie des 500 plus grandes instances MediaWiki au monde selon Wikistats
PCW fait partie du réseau international de wikis Encyclopaediae Pokémonis, qui inclut aussi Bulbapedia
Une grande partie du contenu a été traduite de Bulbapedia avec autorisation, avec la participation de milliers de bénévoles humains
Les autres wikis EP semblent être indexés normalement, d’après les vérifications de la communauté et les recherches site:
Une recherche site:http://wiki.pokemoncentral.it ne renvoie actuellement que 4 résultats pour PCW
Il y a quelques semaines, autour de la core update de mars 2026, de nombreuses pages ont commencé à apparaître dans Google Search Console avec l’état "crawled - currently not indexed"
Google indique seulement que ces pages pourront peut-être être indexées plus tard, ou non, sans donner de raison précise

Causes examinées et réponses apportées

Il est difficile d’y voir une baisse de qualité du contenu ou un problème d’exploitation
- Aucun changement de politique éditoriale, aucun abus ni dégradation de qualité n’a été constaté
- S’il s’agissait d’un simple problème technique comme des erreurs 5xx, Google Search Console l’aurait probablement signalé différemment
Le problème semble limité à Google
- Bing, DuckDuckGo et d’autres moteurs de recherche indexent PCW normalement
Les scrapers pour l’entraînement de l’IA sont bloqués via Cloudflare
- Les bots d’IA qui utilisent PCW comme source ou référence pour répondre aux requêtes des utilisateurs ne sont pas bloqués
- Google-Extended est bloqué dans robots.txt, mais selon la documentation de Google cela ne devrait pas affecter l’indexation dans la recherche
Le managed challenge de Cloudflare ne s’applique qu’à des sections non essentielles à l’indexation, comme l’historique des pages ou les pages techniques
- Ces sections ne sont pas explicitement autorisées dans robots.txt
- Ces pages sont difficiles à mettre en cache et consomment beaucoup de ressources serveur
- Des bots envoient des milliers de requêtes par minute, surchargeant le serveur
Les réglages serveur et Cloudflare ont été ajustés pour accélérer le site
- Ces dernières semaines, les bonnes pratiques SEO et d’optimisation applicables de manière honnête ont été mises en œuvre
- Les balises Open Graph et schema.org ont été améliorées de façon itérative avec Claude Code
- Le SWR de Cloudflare a été configuré pour que la majorité des requêtes soient servies en quelques millisecondes depuis l’edge sans passer par le serveur, avec revalidation en arrière-plan
Ces changements n’ont pour l’instant produit aucun effet
- Il peut falloir plusieurs semaines pour que les changements soient pris en compte, et l’opacité de Google empêche de vérifier rapidement leur impact réel
Une hypothèse possible est que Google, en ajustant son algorithme, considère à l’ère de l’IA que la “qualité du contenu” de PCW n’est pas suffisante
- Les LLM ont peut-être déjà été entraînés sur les textes de PCW avant le blocage
- D’autres sites qui ont largement copié le contenu de PCW apparaissent toujours dans les résultats de recherche
- Le contenu de PCW est sous licence CC BY-NC-SA, donc la copie en elle-même ne pose généralement pas problème
Des visiteurs fidèles, qui ne comprennent pas la situation, posent des questions, et un message à ce sujet a aussi été publié sur Reddit
Pour l’instant, il est recommandé d’ajouter directement wiki.pokemoncentral.it aux favoris pour continuer à y accéder
L’espoir est de pouvoir joindre quelqu’un chez Google qui puisse vérifier ce qu’il se passe et aider à comprendre la situation

4 commentaires

ndrgrd 2026-05-21

Il y a plusieurs années, j’avais mis de côté diverses choses sur un blog Tistory ; ce contenu remonte encore bien dans les résultats de recherche et continue de générer des vues, alors qu’avec mon domaine personnel, seule environ la moitié des pages est indexée et elles ne remontent pas vraiment bien.

quilt8703 2026-05-21

Je tiens un blog personnel basé sur Ghost. J’ai commencé à regarder la Search Console quand j’avais accumulé une centaine de posts, mais à part la page principale, tout restait en état crawled not indexed, alors j’ai essayé un peu de tout avant d’abandonner à moitié. Puis, au moment où j’ai dépassé environ 500 articles, ils ont soudainement commencé à être indexés. Il y a toujours des posts qui ne sont pas indexés, ainsi que des pages qui ont été indexées puis retirées de l’index, donc je ne comprends pas très bien quels sont les critères, mais en tout cas c’est frustrant.

xguru 2026-05-21

Je pense que c’est bien un problème du côté de Google. J’observe la même chose sur plusieurs sites que j’exploite.
Google n’indexe tout simplement pas, sans aucune raison. On dit qu’il le fera peut-être un jour, mais ce sera vraiment… un jour.

GN⁺ 2026-05-21

Avis Hacker News

Ce n’est pas que Google nous déteste, c’est pire : Google est indifférent
Pour détester, il faut au moins reconnaître l’existence de quelque chose. Cet incident, pris isolément, ne veut peut-être pas dire grand-chose, mais globalement Google semble partir dans une direction étrange. C’était autrefois l’avant-garde, mais en 20 ans c’est apparemment devenu une grande entreprise de plus qui sacrifie la qualité au profit des actionnaires
Comme moteur de recherche, ce n’est plus vraiment utile. Les liens promotionnels apparaissent avant ce que je cherche réellement. Je suis passé à Kagi et je ne me suis pas retourné
Même pour l’IA, ça ne me convient pas. Il y a des limites d’usage arbitraires qui se réinitialisent après 5 heures, ainsi qu’un quota hebdomadaire affiché en pourcentage, ce qui est l’opacité totale. Kagi, lui, montre clairement ce qu’il reste dans le détail d’usage. Pour info, je ne travaille pas chez Kagi, je suis juste un client satisfait
Comme stockage cloud, ce n’est pas terrible non plus. Quelque part dans un dossier partagé collaboratif, il doit y avoir un spammeur ou un compte piraté, car Google envoie régulièrement des alertes pour contenu adulte. Et je ne suis pas le seul (https://www.reddit.com/r/techsupport/comments/1azf25v/myster...). J’ai migré sur Apple iCloud et c’était réglé
Le mail, ça va. Après 22 ans d’utilisation, c’est désormais relégué à un niveau peu important dans ma vie. Tout ce qui compte vraiment a de toute façon déjà été migré vers des fournisseurs européens
- J’ai l’impression d’être fou, mais en dernier recours j’utilise Yandex, et j’y trouve de bons résultats pour des choses que Google semble avoir décidé de ne plus afficher
  J’ai aussi essayé DDG, mais pour mon usage c’était encore pire que Google
- Quand on cherche un restaurant précis sur Google Maps, on dirait qu’il suppose juste qu’on a faim en général
  Je viens de chercher A&W, et il m’a aussi montré Tim Hortons, Popeyes et McDonald’s. Apple Maps ne fait jamais ça. Cela dit, j’utilise généralement Google pour savoir si c’est ouvert et si les horaires sont exacts
- Kagi est excellent
  Cela dit, c’est toujours impressionnant qu’une entreprise géante comme Google publie gratuitement d’excellents travaux de recherche comme AlphaFold ou, dans une moindre mesure, Gemma. Ça me fait penser à ATT PAC Bell ou IBM à notre époque
- Les liens promotionnels sont devenus délirants, et les 5 ou 6 premiers liens ressemblent souvent à de la pub
- Je me demande comment utiliser Kagi AI
  Je paie le service de recherche depuis un an, mais je n’ai pas encore exploré les fonctionnalités IA proposées
C’est peut-être parce que c’est un wiki. En ce moment, les spammeurs de wiki sont tenaces
Même un petit wiki peu connu pour un jeu de moins de 10 000 joueurs, que j’aide à administrer, a récemment dû bloquer les nouvelles inscriptions. Le spam était trop important, et nous étions coincés sur une ancienne version de MediaWiki sans prise en charge de CAPTCHA
Si c’est un wiki populaire, et celui-ci semble l’avoir été, CAPTCHA seul risque de ne pas suffire contre les spammeurs de wiki. Si les spammeurs ont posté non seulement des cochonneries du genre « achetez des pilules pour la virilité », mais aussi des liens vers des sites malveillants, il est possible que Google considère avec une certaine légitimité ce wiki comme une source de ce malware
La solution dont dispose l’auteur du post initial est probablement d’auditer et de nettoyer en profondeur le contenu malveillant du wiki, puis de contester la décision auprès de Google. Bien sûr, comme c’est Google, même s’ils répondent, cela prendra probablement des mois
Au final, à moins qu’il n’y ait un fan italien de Pokémon dans l’équipe Google chargée de ce dossier, la situation semble assez bloquée
- Nous avons déjà un système anti-bot avec des restrictions de permissions pour les nouveaux comptes, des règles Cloudflare bien réglées, et une équipe de bénévoles dévoués qui patrouille en permanence les modifications récentes
  Je ne peux pas exclure qu’il existe un lien spam perdu quelque part dans plus de 37 000 pages presque jamais visitées, mais cela ne semble pas une explication convaincante pour la désindexation. Si c’était le cas, ça apparaîtrait sans doute aussi dans Google Search Console
- Une fois qu’un projet devient assez connu pour mériter des automatisations sur mesure, il n’y a en pratique plus vraiment de moyen de lutter contre le spam
  Tant qu’on reste assez petit, il suffit souvent d’ajouter une seule étape non standard au processus d’inscription pour déjouer presque tous les bots de spam. Par exemple, montrer une image fixe ou un audio que seul le public visé reconnaîtra et demander de le sélectionner dans un menu déroulant « je ne suis pas un bot », ou ajouter une vérification e-mail supplémentaire au premier post / à la première modification, ou demander une réponse visible à un moment précis dans une longue vidéo YouTube. N’importe quoi de non standard fonctionne
  Cela casse 99,9 % des automatisations, et les spammeurs qui manipulent les résultats de recherche ne vont pas développer une automatisation spécifique juste pour un wiki ou un forum donné
  Si le site est très connu, cela devient évidemment une course aux armements sans fin. À ce stade, on peut utiliser quelque chose comme Hashcash pour forcer une forte consommation de CPU/GPU/RAM à chaque fois, au point que les spammeurs préfèrent simplement mettre le site en liste noire
- Il y a quelques jours ici, quelqu’un disait utiliser couramment des bots IA de CAPTCHA, et parlait d’un coût de 0,003 dollar par résolution
  Donc même une version plus récente avec CAPTCHA n’aurait peut-être pas aidé
- Les CAPTCHA ne font rien contre les spammeurs
  Bloquer certains domaines d’e-mail à l’inscription a plutôt bien marché. Ma liste est ici : https://www.rejectionwiki.com/index.php?title=MediaWiki:Emai.... C’est une fonctionnalité intégrée de MediaWiki, donc cela devrait fonctionner correctement sur la plupart des versions
- Je ne sais pas s’il y a des éléments permettant de dire que ce wiki a été recouvert de spam, ou si c’est juste une supposition lancée à la va-vite
  Ils ont clairement indiqué dans le fil Twitter qu’il n’était pas rempli de contenu IA de mauvaise qualité, et qu’ils avaient examiné la liste des pages marquées « explorée, actuellement non indexée » sans y trouver de signe d’abus
  Je comprends qu’on puisse être marqué après avoir vu son propre wiki subir une attaque de spam, mais généraliser ce qui s’est passé sur le sien à celui-ci n’est pas raisonnable
Franchement, il est très possible que ce soit juste un bug bâclé du côté de Google
Dans la recherche, il y a beaucoup de causes et d’effets différés, et il est bien plus facile pour un site web de commettre une petite erreur qui empêche 0,1 % des pages d’être explorées ou indexées que de détecter que cela s’est produit. Surtout tant que le site concerné ne le signale pas
J’ai déjà rencontré un bug similaire sur marginalia. Un site n’était pas indexé si sa racine ne prenait pas en charge HEAD, mais acceptait un GET avec en-tête Range et répondait correctement en HTTP 206. C’était dû au fait que le code chargé de vérifier les problèmes du document racine lors de l’exploration initiale traitait cela comme un état d’erreur
La plupart des sites qui prennent en charge les requêtes de plage gèrent aussi HEAD. En général, cela signifie que le document n’est pas généré dynamiquement. Mais certaines configurations basées sur Caddy faisaient exception, soit environ 0,3 % des serveurs
- Ou alors une IA l’a peut-être classé comme un type de contenu qu’elle ne voulait pas montrer
  Il n’existe aucun moyen de rendre ce genre de classification parfaite
- Si le nombre de pages indexées est passé de 511 000 à 11, c’est quand même un raté assez grave
Google a déjà aspiré les données et terminé l’entraînement de ses modèles, alors pourquoi s’embêter à envoyer du trafic vers les sites web
Les créateurs de contenu et les sites web légitimes ont simplement été utilisés puis jetés
- Personnifier Google de cette manière n’est pas très réaliste
  Rien que l’équipe Search de Google compte des milliers de personnes, toutes occupées à des tâches différentes sous une mission générale consistant à rendre le web plus accessible, pas moins accessible. N’importe quel déploiement de n’importe laquelle d’entre elles peut produire ce type d’effet secondaire
  Cela pourrait aussi être la mise en œuvre délibérée d’une politique, mais la probabilité paraît très faible
- J’ai pensé la même chose. Une grande partie de ces données n’est-elle pas stable et statique
  Si le corpus est déjà fonctionnellement complet, je ne vois pas pourquoi il faudrait continuer à réexplorer et réindexer les contenus à faible valeur
- J’étais en train d’écouter Suffragette City de David Bowie en lisant cette formule
  Bowie semble avoir été l’un de ceux qui ont popularisé l’expression « wham bam, thank you ma’am »
- N’est-ce pas la même chose que ce que font depuis 20 ans les utilisateurs de bloqueurs de pub
  Vous pouvez downvoter, mais cela n’expliquera pas la différence
  Quand on disait que les utilisateurs de bloqueurs de pub empêchaient les créateurs de gagner de l’argent, on répondait souvent que l’internet de 1996 se portait très bien, qu’il ne fallait pas s’attendre à être rémunéré pour publier du contenu en ligne, ou qu’on avait le droit de choisir ce qu’on charge sur son propre ordinateur. Où sont passés ces arguments
Il y a quelques semaines, la même chose est arrivée à mon blog
C’était un blog bien référencé depuis des années, et soudain presque tous les articles ont cessé d’être indexés. Search Console indique que les URL ont été explorées mais ne sont actuellement pas indexées, et contrairement à un problème technique, il n’y a rien que je puisse corriger. Il faut maintenant accepter que la plupart de mes textes ne soient plus trouvables via Google
Je ne pense pas vraiment que ce soit lié, mais avec le recul, le timing coïncide avec le moment où j’ai commencé à configurer TDMRep pour empêcher l’utilisation de mon contenu dans l’entraînement des LLM
- Même chose pour moi. J’ai un blog personnel depuis plus de 20 ans, et l’an dernier je n’ai pas réussi à trouver un seul lien vers mon blog sur Google
  En allant dans Google Search Console, j’ai vu que tous les liens étaient en état « explorée, actuellement non indexée », sans aucune explication fournie
- Si Google a déjà aspiré les données du site pour l’entraînement, ne pas l’indexer peut devenir une sorte de douve face aux concurrents qui utilisent Google Search pour découvrir des sites
Créer un vrai site communautaire, c’était l’erreur SEO classique
Il aurait fallu faire un fil Reddit, un sous-dossier de coupons et un résumé par IA. Blague à part, j’espère que ça pourra se rétablir rapidement
On peut dire que Google nous déteste tous
- Google ne déteste ni n’aime aucun d’entre nous
  En tant qu’institution, ce qui l’intéresse, c’est uniquement de bourrer le plus de pubs possible sous les yeux du plus grand nombre afin d’empiler des montagnes d’argent toujours plus absurdes
  Ce n’est pas pour défendre Google. Google est, comme presque toutes les grandes entreprises, complètement sociopathe
Au passage, Google déteste aussi OpenCV
Des recherches autrefois faciles, par exemple « opencv orb », renvoient maintenant des pages entières de sites de spam. En gros, du spam de blog du style « apprenez OpenCV ici ! »
Le premier résultat pour « docs.opencv.org » arrive littéralement en 4e page, et pointe en plus vers la version 3.4 vieille de 9 ans
La page que je veux, https://docs.opencv.org/4.13.0/dc/dc3/tutorial_py_matcher.ht..., n’apparaît nulle part
- Je pense que, pour les produits qui ne vivent pas d’abonnements, l’enshittification annonçait déjà la couleur depuis un moment
  Il faut voter avec son argent et migrer vers de meilleurs produits, orientés client plutôt qu’annonceur
  J’ai gardé un très bon souvenir du temps passé adolescent et jeune adulte à traîner sur Newgrounds, reconnaissant envers ceux qui payaient l’infrastructure serveur. Je m’étais promis que, une fois installé et avec un peu d’argent de côté, je contribuerais à mon tour pour les suivants ; cela a pris plus de temps que prévu, mais je le fais depuis presque 10 ans
  Donc j’aimerais encourager la normalisation de cette culture : avoir un certain pourcentage de clients payants pour maintenir la gratuité à ceux qui ne peuvent pas payer, ou pour soutenir la croissance. Des dizaines de milliers de carrières en programmation et en animation ont probablement commencé, ou au moins trouvé de l’inspiration, sur un excellent site comme Newgrounds, avec un effet net très positif pour la société
- J’ai eu un problème similaire avec la documentation OpenStack dans Google
Vu le keynote d’hier et les changements dans Search, il paraît clair que dans un avenir proche Google cessera d’envoyer du trafic vers les sites web
Les résultats de recherche ne seront plus que les notes de bas de page des réponses Gemini
Les wikis sont risqués du point de vue SEO
Faire indexer mon wiki personnel a été si difficile que j’ai presque abandonné, jusqu’à ce qu’un ami plus familier du sujet m’aide à mettre en place tous les réglages nécessaires
Si on ne fait pas attention, il est facile pour des gens d’injecter du spam un peu partout sur le site, et cela ruine vraiment sa présence dans les moteurs de recherche
Cela dit, Google est immense. Vraiment, vraiment immense. Tellement immense que même les gens qui travaillent chez Google ne sont pas tous considérés comme fiables par Google lui-même sur ce genre de sujet
Mais ce n’est pas que Google déteste les wikis en général. Il faut simplement beaucoup de travail : vérifier qu’il n’y a pas de spam, remplir les métadonnées, avoir un sitemap.xml, etc. Voici un exemple avec mon wiki : https://wiki.roshangeorge.dev/w/images/8/89/Screenshot_-_Goo...