La détérioration de Google
(baldurbjarnason.com)- Il devient de moins en moins possible de compter de façon fiable sur le trafic des médias web en provenance de Google et Facebook, ce qui fragilise même la base de survie de médias indépendants exploités avec frugalité
- Google a introduit un classement fondé sur le machine learning pour améliorer la qualité de la recherche, mais l’entreprise est critiquée parce que le spam généré par des LLM passerait entre les mailles du filet tandis que les blogs et petits sites seraient relégués dans les résultats
- L’un des participants au Google Web Creator Summit 2024 a indiqué que son chiffre d’affaires de l’année précédente était de 250 000 dollars, mais que son trafic avait chuté de 97 %, au point de dépendre d’une banque alimentaire
- Les participants au Summit ont rapporté que Google leur avait dit que « le contenu n’était pas le problème » ; Danny a débogué des exemples avec l’équipe d’ingénierie, sans parvenir à trouver pourquoi ils n’apparaissaient pas
- Le système de classement de la recherche étant devenu une boîte noire difficile à comprendre même au sein de Google, cela alimente la critique selon laquelle, en situation de monopole, la baisse d’utilité d’un produit ne se traduit pas directement par une dégradation des performances commerciales
Effondrement du trafic des médias web indépendants
- “The End Of Independent Publishing And Giant Freakin Robot” annonce la fermeture de Giant Freakin Robot et affirme qu’au cours des deux dernières années, des centaines d’éditeurs indépendants ont mis la clé sous la porte et que des milliers d’autres suivront le même chemin
- Après avoir contacté des éditeurs indépendants couvrant différents sujets, il ressort qu’aucun ne s’en sort bien et que la plupart s’attendent à fermer prochainement
- Le problème a été signalé directement à Google, mais le message reçu en retour était que Google s’en moquait, au point que l’expression « notre industrie est terminée » a été employée
- Les entreprises de médias web ne peuvent désormais plus compter de façon fiable sur le trafic entrant provenant de Google ou de Facebook, et très peu peuvent survivre avec le trafic restant
Comment le classement de la recherche est devenu une boîte noire
- Le problème ne se limite pas à l’échec de certains sites ; il s’inscrit dans la manière dont Google a utilisé le machine learning pour classer les sites afin de corriger ses résultats de recherche
- Selon What we can learn from the Google creators summit for HCU impacted sites, le helpful content system était un système de machine learning entraîné sur de bons et de mauvais exemples afin de prédire de quel côté se rapprochaient des exemples jamais vus
- Mais, au cours de l’année écoulée, Google Search a été critiqué pour avoir laissé passer beaucoup de spam généré par des LLM et fait disparaître les blogs et petits sites de la plupart des résultats
- Certains sites ont de fait été exclus par le modèle de machine learning, sans que personne ne sache précisément pourquoi
- Dans I Drank the Kool-Aid at the 2024 Google Web Creator Summit, un participant explique qu’après un chiffre d’affaires de 250 000 dollars l’année précédente, son trafic a reculé de 97 % et qu’il se nourrit désormais grâce à une banque alimentaire
- Le problème ressort d’autant plus que ces personnes avaient été invitées au Summit parce qu’elles produisaient le type de contenu que Google voulait voir apparaître dans ses résultats de recherche
- Dans une conversation sur Twitter, il a été partagé que des représentants de Google avaient répété à plusieurs reprises que « le contenu n’était pas le problème », et que Danny avait pris les exemples des participants pour les déboguer avec l’équipe d’ingénierie, sans réussir à comprendre pourquoi ils n’étaient pas affichés
- L’algorithme de recherche semble être devenu une boîte noire difficile à appréhender même pour les ingénieurs de Google
Une structure où la détérioration du produit ne pèse pas sur les performances commerciales
- Le fait que des spécialistes ML de Google aient averti que les LLM pouvaient rendre les produits confus et difficiles à contrôler, et qu’il fallait les éviter, est également lié à ce problème
- Quand des licenciements massifs font partir des personnes qui comprenaient en profondeur les systèmes internes, les systèmes restants peuvent plus facilement se transformer en boîtes noires
- La raison fondamentale pour laquelle la détérioration se poursuit est qu’elle n’a pas d’impact direct sur les résultats commerciaux de Google ; une entreprise en situation de monopole peut capter la valeur générée autour d’elle même lorsque l’utilité de ses produits diminue
- Compte tenu de la situation politique aux États-Unis, cela mène à la perspective d’un renforcement des monopoles et oligopoles dans l’industrie technologique, tandis que la productivité, les performances et l’efficacité réelles des produits compteront de moins en moins
1 commentaires
Avis sur Hacker News
Fondamentalement, je pense que cela a commencé au moment où les gens de la publicité ont gagné la lutte de pouvoir contre ceux du moteur de recherche. Avant, la publicité était un moyen de financer la création de technologies formidables, avec en prime la possibilité de devenir immensément riche.
Aujourd’hui, ce n’est plus qu’un moyen d’extraire du système jusqu’à la dernière goutte de valeur et de faire monter les chiffres indéfiniment, et la haute direction de Google semble totalement dépourvue de vision comme de stratégie.
Google Docs était également stupéfiant en 2006, mais près de 20 ans plus tard il n’a reçu que quelques améliorations d’ergonomie ; pour le reste, beaucoup de projets semblent avoir été fermés, n’avoir jamais été particulièrement innovants, ou avoir suivi mollement le travail des autres.
La publicité peut remplir les résultats sponsorisés en haut de page, mais elle n’affecte pas les résultats organiques. Si « la publicité a gagné » signifie qu’il y a davantage d’emplacements sponsorisés, alors cela veut seulement dire qu’il y a plus d’emplacements ; cela n’explique pas la qualité des résultats organiques.
Sinon, cette technologie formidable n’est peut-être qu’un appât pour attirer les personnes ciblées par la publicité, autrement dit un composant de la technologie de service publicitaire. On peut aussi se demander pourquoi ne pas simplement vendre ou concéder sous licence cette technologie, plutôt que d’embaucher des équipes publicitaires.
Comme l’a dit Morgan, ce qui m’a frappé, c’est que Danny se soit assis dans une pièce avec une équipe d’ingénieurs, leur ait donné des exemples en demandant « pourquoi ces personnes n’apparaissent-elles pas ? », qu’ils aient suivi une procédure de débogage, mais qu’ils n’aient pas trouvé la cause.
Pendant ce temps, quelqu’un en Suède, avec une seule machine de bureau dans son salon, a créé un moteur de recherche suffisamment bon pour que je bascule souvent dessus quand Google échoue. Ces temps-ci, j’utilise Kagi : il propose des priorités et des listes de blocage, mais les résultats sont bons par défaut, donc je n’utilise pas ces fonctions.
Kagi construit bien son propre index, mais pendant longtemps il ressemblait surtout à une revente de résultats Google+Bing enveloppés, et c’est intéressant de voir qu’il était pourtant bien meilleur.
Il y a deux possibilités. Soit Kagi dispose d’un système très intelligent qui lit les quelques dizaines de premiers résultats et les réordonne, soit, plus vraisemblablement, son accès API lui permet de contourner le « dispositif d’expansion et d’abrutissement des requêtes » côté entrée de Google ainsi que l’étape de personnalisation côté sortie, pour interagir directement avec le cœur encore fonctionnel de la recherche Google.
Par « dispositif d’abrutissement », j’entends le pipeline qui remplace
obscure-js-libpar unwell-knowm-js-lib-with-kind-of-similar-nameau nom similaire, ou qui décide que lorsque vous cherchezmat-tabled’Angular, vous voulez en fait des tables avec des tapis, sans rapport avec Angular.exactly-this-thing.pysur Google, on a l’impression qu’il répond : « Vous vouliez sûrement diresorta-related.js. Le voici. » Ça donne spontanément envie de répliquer : « J’ai bégayé ? »Je ne suis pas sûr de comprendre précisément de quel problème parle l’auteur. Est-ce le fait que certains sites ont bâti leur modèle économique sur les résultats de recherche, le fait que Google a modifié son algorithme de recherche et que ses priorités ne lui plaisent pas, ou autre chose ? Ce n’est pas clair.
Attendre de Google qu’il ne mène jamais d’expériences sur ses algorithmes est assez déraisonnable, et, au fond, cela ressemble à un jeu à somme nulle. On peut être gagnant aujourd’hui et perdant demain.
Si l’on s’inquiète du partage des revenus, du trafic entrant ou du placement publicitaire, bâtir une activité dont le succès dépend entièrement des caprices d’une autre entreprise n’est pas très judicieux.
La recherche est peu à peu remplacée par les grands modèles de langage et, comme elle a été « gamifiée » pendant des années par l’optimisation pour les moteurs de recherche, elle devient à mon avis de plus en plus mauvaise comme mode de découverte de contenu.
Pour découvrir du contenu, un modèle où des communautés aux centres d’intérêt similaires, comme Hacker News, le trouvent collectivement, ou bien un modèle de curation, me semble plus adapté. Si le curateur ou la communauté s’éloigne de vos centres d’intérêt, il faut en trouver un autre, mais, curieusement, cela peut encore fonctionner dans le même cadre.
Les sites web d’autrefois recevaient du trafic des webrings, des annuaires et de nombreux petits moteurs de recherche ; aujourd’hui, c’est presque entièrement Google ou ses propriétés, avec une part plus réduite pour Meta. Les modèles de découverte fondés sur des curateurs et des communautés sont des victimes de Google, pas une solution.
Autrement dit, Google aurait lancé 1000 expériences qui augmentaient le taux de clics de 0,2 % et semblaient inoffensives, avec pour résultat un système qui ne veut plus servir que des liens Reddit et Quora.
J’ai vu cette idée plusieurs fois dans la section Blind privée de Google, généralement accompagnée de discussions disant que les responsables de la recherche avant 2020 s’inquiétaient de ce genre de résultat et adoptaient une approche plus prudente.
En tant qu’ancien employé de Google, parti en octobre 2023, je n’ai pas travaillé dans l’équipe Search, mais cette théorie semble mal comprise en dehors de Google. Les seules exceptions sont deux billets de blog assez connus, dont je ne me souviens plus des noms, mais qui mettaient le doigt sur le problème.
Je me demande s’il existe une liste de requêtes pour lesquelles Google produit de mauvais résultats. J’ai parcouru mon historique de recherche pendant quelques minutes, et il s’agissait surtout de requêtes simples, comme des noms de personnes, que Google a bien traitées. Pour rechercher des personnes, j’ai parfois l’impression que Google est meilleur que LinkedIn.
J’ai aussi comparé quelques requêtes complexes avec Kagi. Pour « How much bitcoin does microstrategy own », Google a renvoyé le bon extrait ici, tandis que Kagi n’a lié que des articles sur la quantité acquise ces derniers jours.
Pour « how to pronounce stratchery », Google a affiché le bon extrait du site Stratechery, alors que le premier résultat de Kagi était une entrée de spam avec une mauvaise prononciation, et le deuxième résultat un tweet avec la bonne prononciation.
L’article de Dan Luu (https://danluu.com/seo-spam/) m’est aussi venu à l’esprit, mais en regardant mon historique de recherche, les requêtes qu’il utilise ne représentaient pas du tout mes recherches quotidiennes.
[0]https://www.forbes.com/sites/digital-assets/2024/11/29/micro...
[1]https://stratechery.com/category/about/#:~:text=UPDATE%3A%20...
[2]https://www.howtopronounce.com/stratechery
Les avis produits sont remplis de déchets optimisés pour les moteurs de recherche, c’est-à-dire de listes « Top 10 » de blogspam, et pour tout ce qui concerne le voyage, les publicités remplissent une page entière avant même d’arriver aux résultats organiques. On finit par ne même plus essayer par lassitude, et il ne reste que les requêtes qui fonctionnent encore.
Je me demande s’il existe des exemples précis de choses difficiles à trouver avec Google mais faciles avec autre chose.
Les statistiques mondiales d’utilisation récentes sont : Google 89,33 %, Bing 4,15 %, YANDEX 2,8 %, Yahoo! 1,33 %, Baidu 0,83 %, DuckDuckGo 0,69 %. Données d’octobre 2024 : https://gs.statcounter.com/search-engine-market-share
Si Google est si mauvais, je me demande pourquoi les gens, moi compris, ne cliquent pas vers d’autres moteurs de recherche. C’est dommage que Giant Freakin Robot ne reçoive pas de clics, mais c’est un autre problème que de dire que Google est mauvais du point de vue utilisateur.
Je les ai tous essayés, et ils fonctionnent tous. Baidu s’affiche en chinois, et quand j’ai cherché The Sound of Music, les résultats chinois donnaient, d’après Google Traduction, quelque chose comme « la nonne et les sept enfants turbulents », ce qui m’a fait sourire.
Google s’est clairement détourné de la priorité donnée à la valeur pour les clients et pour les créateurs de contenu, au profit d’indicateurs clés de performance internes et opaques. C’est encore plus vrai pour les créateurs que pour les annonceurs
Après être passé à DuckDuckGo il y a quelques années, puis à Kagi l’an dernier, chaque retour occasionnel sur Google me fait clairement sentir à quel point ils se sont égarés
Il faudra sans doute encore dix ans avant qu’ils perdent leur domination, mais les signes sont évidents. Seules l’inertie et leur position de marché expliquent qu’ils soient encore au sommet. Pendant ce temps, les jeunes générations utilisent très peu la recherche web, et les personnes à l’aise avec la tech s’en détournent de plus en plus vite
Du point de vue d’une startup, c’est plutôt encourageant. Google n’est plus le gorille de 800 livres qui va venir vous piquer votre déjeuner, mais plutôt un géant mort-vivant qui attend qu’on vienne récolter ses composants conceptuels
Cette année, je ne suis allé sur Google depuis Kagi avec
!gqu’une poignée de fois, et je l’ai regretté immédiatement à chaque foisIl y a quelques années, quand j’utilisais DuckDuckGo,
!gétait devenu un réflexe, et dans peut-être la moitié des cas les résultats de Google me semblaient meilleurs. Rester sur DuckDuckGo relevait de l’idéalisme, avec une qualité qui paraissait de second rang, mais Kagi ne donne pas cette impression. Les 10 dollars par mois sont largement rentabilisés par le gain de productivitéComme Kagi utilise aussi l’index de recherche de Google parmi ses sources, ce n’est pas que Google soit techniquement incapable d’améliorer ses résultats ou son expérience utilisateur. C’est juste que cela semble impossible sur le plan organisationnel
On avait prévenu que l’une des conséquences fréquentes des licenciements massifs était de transformer les systèmes internes en boîtes noires, parce que toutes les personnes qui les comprenaient en profondeur partaient
Perdre directement des personnes compétentes arrive réellement, mais ce n’est pas la raison principale pour laquelle ces systèmes deviennent des boîtes noires
Pour chaque personne compétente licenciée, il y en a une vingtaine qui restent et s’adaptent à la réalité d’un avenir beaucoup plus incertain dans l’entreprise. Cette adaptation varie selon les gens, mais littéralement personne ne se dit : « Waouh, je devrais améliorer la documentation et partager mes connaissances pour rendre mon licenciement plus facile ! »
Un mois plus tard, l’entreprise m’a contacté pour me proposer une mission en contrat, mais j’ai refusé. Pendant l’année suivante, des employés m’ont contacté directement pour demander de l’aide, alors que tout ce pour quoi je les ai aidés était déjà documenté
Je ne pense pas qu’il existe de vraie solution en entreprise pour assurer un transfert de connaissances correct. C’est pour ça qu’il est intéressant de voir des gens licenciés à l’improviste : l’entreprise perd bien plus qu’un simple employé
Les silos de connaissances ne garantissent pas la sécurité de l’emploi. Au contraire, ils limitent la capacité à être promu, à collaborer entre organisations, à s’adapter, à prendre d’autres tâches, à déléguer, et ils réduisent la collaboration ainsi que le taux de réussite des projets, ce qui diminue aussi les résultats visibles au sein de l’organisation. Il y a beaucoup d’autres raisons pour lesquelles c’est mauvais, non seulement pour l’organisation, mais aussi pour l’ingénieur qui vit dans ce silo, et plusieurs études existent sur le sujet
Yandex, le Google russe, ressemble en réalité plutôt au Google de 2006. Au sens où il me montre ce que je veux, et non ce que les avocats de Google et les gens de SF qui préparent leurs dossiers de promotion veulent me montrer
Les contenus liés à la Russie peuvent être censurés, mais dans mon usage, c’est largement hors périmètre
Je ne sais pas ce qui empêche un nouveau moteur de recherche, à part l’échelle et les serveurs. Si tout ce que nous voulons, c’est la vieille recherche ordinaire qui existait en 2006, cela semble reproductible
Il existe bien d’autres moteurs comme DuckDuckGo, mais j’ai fini par comprendre qu’en pratique il est assez proche de Bing. Dans ce cas, si Google est si mauvais, je me demande aussi pourquoi Bing n’a pas pris le dessus. Il n’est pas excellent, mais pas si mauvais non plus
En lisant davantage, il semble que Kagi fasse cela
C’est un article implacable qui montre comment Google a été détruit de l’intérieur
https://www.wheresyoured.at/the-men-who-killed-google/
En réalité, cela s’est produit plus tard que je ne l’aurais imaginé, mais cela ressemble à un événement suffisamment net pour que ses répercussions se fassent encore sentir aujourd’hui
Giant Freakin' Robot était un site agrégateur. Son « contenu » se résume à des liens vers d’autres pages web accompagnés de longs commentaires. Google semble désormais reconnaître les sites agrégateurs et les classer plus bas
Google étant lui-même un site agrégateur, il n’a aucune raison d’envoyer du trafic vers d’autres agrégateurs. J’aimerais bien qu’ils rétrogradent aussi des sites comme Yelp
Je me demande à quoi les personnes qui utilisent Internet depuis longtemps emploient la recherche sur Internet. Dans mon cas, c’est l’une de ces trois choses
Premièrement, je sais sur quel site se trouve l’information et j’y vais directement. Par exemple Wikipedia, Github ou Google Maps
Deuxièmement, j’ai besoin de l’avis ou du retour de vraies personnes, donc je fais généralement une recherche Google limitée au domaine Reddit
Troisièmement, j’ai besoin d’une information bien connue et facile à vérifier, et c’est un problème que les grands modèles de langage traitent très bien
Comme cela représente plus de 95 % de mon activité de « surf », je pense que je remarquerais à peine si les principaux moteurs de recherche tombaient un jour en panne