Google semble désormais nous détester
(twitter.com/pokemoncentral)- Pokémon Central Wiki est depuis plus de 15 ans la principale source d’informations Pokémon en italien, mais a aujourd’hui presque disparu des résultats de recherche Google
- Bien que wiki.pokemoncentral.it soit un grand wiki basé sur MediaWiki, une recherche
site:ne renvoie littéralement que 4 résultats - La chute brutale de l’indexation a commencé autour de la core update de mars 2026, et la Search Console affiche massivement
"crawled - currently not indexed" - Bing, DuckDuckGo et d’autres moteurs l’indexent normalement, ce qui laisse penser à un problème limité à Google ; le blocage de Google-Extended ne devrait pas affecter l’indexation selon la documentation
- Des optimisations côté serveur, Cloudflare, balises Open Graph et schema.org, ainsi que SWR ont été mises en place, sans effet pour l’instant, et la cause reste inconnue
Chute brutale de l’indexation dans la recherche Google
- Pokémon Central Wiki est depuis plus de 15 ans la source la plus connue d’informations Pokémon en italien, mais n’apparaît presque plus dans les résultats de recherche Google
- wiki.pokemoncentral.it fonctionne avec MediaWiki, le logiciel open source utilisé par Wikipédia, et fait partie des 500 plus grandes instances MediaWiki au monde selon Wikistats
- PCW fait partie du réseau international de wikis Encyclopaediae Pokémonis, qui inclut aussi Bulbapedia
- Une grande partie du contenu a été traduite de Bulbapedia avec autorisation, avec la participation de milliers de bénévoles humains
- Les autres wikis EP semblent être indexés normalement, d’après les vérifications de la communauté et les recherches
site: - Une recherche
site:http://wiki.pokemoncentral.itne renvoie actuellement que 4 résultats pour PCW - Il y a quelques semaines, autour de la core update de mars 2026, de nombreuses pages ont commencé à apparaître dans Google Search Console avec l’état
"crawled - currently not indexed" - Google indique seulement que ces pages pourront peut-être être indexées plus tard, ou non, sans donner de raison précise
Causes examinées et réponses apportées
- Il est difficile d’y voir une baisse de qualité du contenu ou un problème d’exploitation
- Aucun changement de politique éditoriale, aucun abus ni dégradation de qualité n’a été constaté
- S’il s’agissait d’un simple problème technique comme des erreurs 5xx, Google Search Console l’aurait probablement signalé différemment
- Le problème semble limité à Google
- Bing, DuckDuckGo et d’autres moteurs de recherche indexent PCW normalement
- Les scrapers pour l’entraînement de l’IA sont bloqués via Cloudflare
- Les bots d’IA qui utilisent PCW comme source ou référence pour répondre aux requêtes des utilisateurs ne sont pas bloqués
- Google-Extended est bloqué dans
robots.txt, mais selon la documentation de Google cela ne devrait pas affecter l’indexation dans la recherche
- Le managed challenge de Cloudflare ne s’applique qu’à des sections non essentielles à l’indexation, comme l’historique des pages ou les pages techniques
- Ces sections ne sont pas explicitement autorisées dans
robots.txt - Ces pages sont difficiles à mettre en cache et consomment beaucoup de ressources serveur
- Des bots envoient des milliers de requêtes par minute, surchargeant le serveur
- Ces sections ne sont pas explicitement autorisées dans
- Les réglages serveur et Cloudflare ont été ajustés pour accélérer le site
- Ces dernières semaines, les bonnes pratiques SEO et d’optimisation applicables de manière honnête ont été mises en œuvre
- Les balises Open Graph et schema.org ont été améliorées de façon itérative avec Claude Code
- Le SWR de Cloudflare a été configuré pour que la majorité des requêtes soient servies en quelques millisecondes depuis l’edge sans passer par le serveur, avec revalidation en arrière-plan
- Ces changements n’ont pour l’instant produit aucun effet
- Il peut falloir plusieurs semaines pour que les changements soient pris en compte, et l’opacité de Google empêche de vérifier rapidement leur impact réel
- Une hypothèse possible est que Google, en ajustant son algorithme, considère à l’ère de l’IA que la “qualité du contenu” de PCW n’est pas suffisante
- Les LLM ont peut-être déjà été entraînés sur les textes de PCW avant le blocage
- D’autres sites qui ont largement copié le contenu de PCW apparaissent toujours dans les résultats de recherche
- Le contenu de PCW est sous licence CC BY-NC-SA, donc la copie en elle-même ne pose généralement pas problème
- Des visiteurs fidèles, qui ne comprennent pas la situation, posent des questions, et un message à ce sujet a aussi été publié sur Reddit
- Pour l’instant, il est recommandé d’ajouter directement wiki.pokemoncentral.it aux favoris pour continuer à y accéder
- L’espoir est de pouvoir joindre quelqu’un chez Google qui puisse vérifier ce qu’il se passe et aider à comprendre la situation
2 commentaires
Je pense que c’est bien un problème du côté de Google. J’observe la même chose sur plusieurs sites que j’exploite.
Google n’indexe tout simplement pas, sans aucune raison. On dit qu’il le fera peut-être un jour, mais ce sera vraiment… un jour.
Avis Hacker News
Ce n’est pas que Google nous déteste, c’est pire : Google est indifférent
Pour détester, il faut au moins reconnaître l’existence de quelque chose. Cet incident, pris isolément, ne veut peut-être pas dire grand-chose, mais globalement Google semble partir dans une direction étrange. C’était autrefois l’avant-garde, mais en 20 ans c’est apparemment devenu une grande entreprise de plus qui sacrifie la qualité au profit des actionnaires
Comme moteur de recherche, ce n’est plus vraiment utile. Les liens promotionnels apparaissent avant ce que je cherche réellement. Je suis passé à Kagi et je ne me suis pas retourné
Même pour l’IA, ça ne me convient pas. Il y a des limites d’usage arbitraires qui se réinitialisent après 5 heures, ainsi qu’un quota hebdomadaire affiché en pourcentage, ce qui est l’opacité totale. Kagi, lui, montre clairement ce qu’il reste dans le détail d’usage. Pour info, je ne travaille pas chez Kagi, je suis juste un client satisfait
Comme stockage cloud, ce n’est pas terrible non plus. Quelque part dans un dossier partagé collaboratif, il doit y avoir un spammeur ou un compte piraté, car Google envoie régulièrement des alertes pour contenu adulte. Et je ne suis pas le seul (https://www.reddit.com/r/techsupport/comments/1azf25v/myster...). J’ai migré sur Apple iCloud et c’était réglé
Le mail, ça va. Après 22 ans d’utilisation, c’est désormais relégué à un niveau peu important dans ma vie. Tout ce qui compte vraiment a de toute façon déjà été migré vers des fournisseurs européens
J’ai aussi essayé DDG, mais pour mon usage c’était encore pire que Google
Je viens de chercher A&W, et il m’a aussi montré Tim Hortons, Popeyes et McDonald’s. Apple Maps ne fait jamais ça. Cela dit, j’utilise généralement Google pour savoir si c’est ouvert et si les horaires sont exacts
Cela dit, c’est toujours impressionnant qu’une entreprise géante comme Google publie gratuitement d’excellents travaux de recherche comme AlphaFold ou, dans une moindre mesure, Gemma. Ça me fait penser à ATT PAC Bell ou IBM à notre époque
Je paie le service de recherche depuis un an, mais je n’ai pas encore exploré les fonctionnalités IA proposées
C’est peut-être parce que c’est un wiki. En ce moment, les spammeurs de wiki sont tenaces
Même un petit wiki peu connu pour un jeu de moins de 10 000 joueurs, que j’aide à administrer, a récemment dû bloquer les nouvelles inscriptions. Le spam était trop important, et nous étions coincés sur une ancienne version de MediaWiki sans prise en charge de CAPTCHA
Si c’est un wiki populaire, et celui-ci semble l’avoir été, CAPTCHA seul risque de ne pas suffire contre les spammeurs de wiki. Si les spammeurs ont posté non seulement des cochonneries du genre « achetez des pilules pour la virilité », mais aussi des liens vers des sites malveillants, il est possible que Google considère avec une certaine légitimité ce wiki comme une source de ce malware
La solution dont dispose l’auteur du post initial est probablement d’auditer et de nettoyer en profondeur le contenu malveillant du wiki, puis de contester la décision auprès de Google. Bien sûr, comme c’est Google, même s’ils répondent, cela prendra probablement des mois
Au final, à moins qu’il n’y ait un fan italien de Pokémon dans l’équipe Google chargée de ce dossier, la situation semble assez bloquée
Je ne peux pas exclure qu’il existe un lien spam perdu quelque part dans plus de 37 000 pages presque jamais visitées, mais cela ne semble pas une explication convaincante pour la désindexation. Si c’était le cas, ça apparaîtrait sans doute aussi dans Google Search Console
Tant qu’on reste assez petit, il suffit souvent d’ajouter une seule étape non standard au processus d’inscription pour déjouer presque tous les bots de spam. Par exemple, montrer une image fixe ou un audio que seul le public visé reconnaîtra et demander de le sélectionner dans un menu déroulant « je ne suis pas un bot », ou ajouter une vérification e-mail supplémentaire au premier post / à la première modification, ou demander une réponse visible à un moment précis dans une longue vidéo YouTube. N’importe quoi de non standard fonctionne
Cela casse 99,9 % des automatisations, et les spammeurs qui manipulent les résultats de recherche ne vont pas développer une automatisation spécifique juste pour un wiki ou un forum donné
Si le site est très connu, cela devient évidemment une course aux armements sans fin. À ce stade, on peut utiliser quelque chose comme Hashcash pour forcer une forte consommation de CPU/GPU/RAM à chaque fois, au point que les spammeurs préfèrent simplement mettre le site en liste noire
Donc même une version plus récente avec CAPTCHA n’aurait peut-être pas aidé
Bloquer certains domaines d’e-mail à l’inscription a plutôt bien marché. Ma liste est ici : https://www.rejectionwiki.com/index.php?title=MediaWiki:Emai.... C’est une fonctionnalité intégrée de MediaWiki, donc cela devrait fonctionner correctement sur la plupart des versions
Ils ont clairement indiqué dans le fil Twitter qu’il n’était pas rempli de contenu IA de mauvaise qualité, et qu’ils avaient examiné la liste des pages marquées « explorée, actuellement non indexée » sans y trouver de signe d’abus
Je comprends qu’on puisse être marqué après avoir vu son propre wiki subir une attaque de spam, mais généraliser ce qui s’est passé sur le sien à celui-ci n’est pas raisonnable
Franchement, il est très possible que ce soit juste un bug bâclé du côté de Google
Dans la recherche, il y a beaucoup de causes et d’effets différés, et il est bien plus facile pour un site web de commettre une petite erreur qui empêche 0,1 % des pages d’être explorées ou indexées que de détecter que cela s’est produit. Surtout tant que le site concerné ne le signale pas
J’ai déjà rencontré un bug similaire sur marginalia. Un site n’était pas indexé si sa racine ne prenait pas en charge HEAD, mais acceptait un GET avec en-tête
Rangeet répondait correctement en HTTP 206. C’était dû au fait que le code chargé de vérifier les problèmes du document racine lors de l’exploration initiale traitait cela comme un état d’erreurLa plupart des sites qui prennent en charge les requêtes de plage gèrent aussi HEAD. En général, cela signifie que le document n’est pas généré dynamiquement. Mais certaines configurations basées sur Caddy faisaient exception, soit environ 0,3 % des serveurs
Il n’existe aucun moyen de rendre ce genre de classification parfaite
Google a déjà aspiré les données et terminé l’entraînement de ses modèles, alors pourquoi s’embêter à envoyer du trafic vers les sites web
Les créateurs de contenu et les sites web légitimes ont simplement été utilisés puis jetés
Rien que l’équipe Search de Google compte des milliers de personnes, toutes occupées à des tâches différentes sous une mission générale consistant à rendre le web plus accessible, pas moins accessible. N’importe quel déploiement de n’importe laquelle d’entre elles peut produire ce type d’effet secondaire
Cela pourrait aussi être la mise en œuvre délibérée d’une politique, mais la probabilité paraît très faible
Si le corpus est déjà fonctionnellement complet, je ne vois pas pourquoi il faudrait continuer à réexplorer et réindexer les contenus à faible valeur
Bowie semble avoir été l’un de ceux qui ont popularisé l’expression « wham bam, thank you ma’am »
Vous pouvez downvoter, mais cela n’expliquera pas la différence
Quand on disait que les utilisateurs de bloqueurs de pub empêchaient les créateurs de gagner de l’argent, on répondait souvent que l’internet de 1996 se portait très bien, qu’il ne fallait pas s’attendre à être rémunéré pour publier du contenu en ligne, ou qu’on avait le droit de choisir ce qu’on charge sur son propre ordinateur. Où sont passés ces arguments
Il y a quelques semaines, la même chose est arrivée à mon blog
C’était un blog bien référencé depuis des années, et soudain presque tous les articles ont cessé d’être indexés. Search Console indique que les URL ont été explorées mais ne sont actuellement pas indexées, et contrairement à un problème technique, il n’y a rien que je puisse corriger. Il faut maintenant accepter que la plupart de mes textes ne soient plus trouvables via Google
Je ne pense pas vraiment que ce soit lié, mais avec le recul, le timing coïncide avec le moment où j’ai commencé à configurer TDMRep pour empêcher l’utilisation de mon contenu dans l’entraînement des LLM
En allant dans Google Search Console, j’ai vu que tous les liens étaient en état « explorée, actuellement non indexée », sans aucune explication fournie
Créer un vrai site communautaire, c’était l’erreur SEO classique
Il aurait fallu faire un fil Reddit, un sous-dossier de coupons et un résumé par IA. Blague à part, j’espère que ça pourra se rétablir rapidement
On peut dire que Google nous déteste tous
En tant qu’institution, ce qui l’intéresse, c’est uniquement de bourrer le plus de pubs possible sous les yeux du plus grand nombre afin d’empiler des montagnes d’argent toujours plus absurdes
Ce n’est pas pour défendre Google. Google est, comme presque toutes les grandes entreprises, complètement sociopathe
Au passage, Google déteste aussi OpenCV
Des recherches autrefois faciles, par exemple « opencv orb », renvoient maintenant des pages entières de sites de spam. En gros, du spam de blog du style « apprenez OpenCV ici ! »
Le premier résultat pour « docs.opencv.org » arrive littéralement en 4e page, et pointe en plus vers la version 3.4 vieille de 9 ans
La page que je veux, https://docs.opencv.org/4.13.0/dc/dc3/tutorial_py_matcher.ht..., n’apparaît nulle part
Il faut voter avec son argent et migrer vers de meilleurs produits, orientés client plutôt qu’annonceur
J’ai gardé un très bon souvenir du temps passé adolescent et jeune adulte à traîner sur Newgrounds, reconnaissant envers ceux qui payaient l’infrastructure serveur. Je m’étais promis que, une fois installé et avec un peu d’argent de côté, je contribuerais à mon tour pour les suivants ; cela a pris plus de temps que prévu, mais je le fais depuis presque 10 ans
Donc j’aimerais encourager la normalisation de cette culture : avoir un certain pourcentage de clients payants pour maintenir la gratuité à ceux qui ne peuvent pas payer, ou pour soutenir la croissance. Des dizaines de milliers de carrières en programmation et en animation ont probablement commencé, ou au moins trouvé de l’inspiration, sur un excellent site comme Newgrounds, avec un effet net très positif pour la société
Vu le keynote d’hier et les changements dans Search, il paraît clair que dans un avenir proche Google cessera d’envoyer du trafic vers les sites web
Les résultats de recherche ne seront plus que les notes de bas de page des réponses Gemini
Les wikis sont risqués du point de vue SEO
Faire indexer mon wiki personnel a été si difficile que j’ai presque abandonné, jusqu’à ce qu’un ami plus familier du sujet m’aide à mettre en place tous les réglages nécessaires
Si on ne fait pas attention, il est facile pour des gens d’injecter du spam un peu partout sur le site, et cela ruine vraiment sa présence dans les moteurs de recherche
Cela dit, Google est immense. Vraiment, vraiment immense. Tellement immense que même les gens qui travaillent chez Google ne sont pas tous considérés comme fiables par Google lui-même sur ce genre de sujet
Mais ce n’est pas que Google déteste les wikis en général. Il faut simplement beaucoup de travail : vérifier qu’il n’y a pas de spam, remplir les métadonnées, avoir un sitemap.xml, etc. Voici un exemple avec mon wiki : https://wiki.roshangeorge.dev/w/images/8/89/Screenshot_-_Goo...