La détérioration de Google

(baldurbjarnason.com)

2 points par GN⁺ 2024-12-01 | 1 commentaires | Partager sur WhatsApp

Il devient de moins en moins possible de compter de façon fiable sur le trafic des médias web en provenance de Google et Facebook, ce qui fragilise même la base de survie de médias indépendants exploités avec frugalité
Google a introduit un classement fondé sur le machine learning pour améliorer la qualité de la recherche, mais l’entreprise est critiquée parce que le spam généré par des LLM passerait entre les mailles du filet tandis que les blogs et petits sites seraient relégués dans les résultats
L’un des participants au Google Web Creator Summit 2024 a indiqué que son chiffre d’affaires de l’année précédente était de 250 000 dollars, mais que son trafic avait chuté de 97 %, au point de dépendre d’une banque alimentaire
Les participants au Summit ont rapporté que Google leur avait dit que « le contenu n’était pas le problème » ; Danny a débogué des exemples avec l’équipe d’ingénierie, sans parvenir à trouver pourquoi ils n’apparaissaient pas
Le système de classement de la recherche étant devenu une boîte noire difficile à comprendre même au sein de Google, cela alimente la critique selon laquelle, en situation de monopole, la baisse d’utilité d’un produit ne se traduit pas directement par une dégradation des performances commerciales

Effondrement du trafic des médias web indépendants

“The End Of Independent Publishing And Giant Freakin Robot” annonce la fermeture de Giant Freakin Robot et affirme qu’au cours des deux dernières années, des centaines d’éditeurs indépendants ont mis la clé sous la porte et que des milliers d’autres suivront le même chemin
Après avoir contacté des éditeurs indépendants couvrant différents sujets, il ressort qu’aucun ne s’en sort bien et que la plupart s’attendent à fermer prochainement
Le problème a été signalé directement à Google, mais le message reçu en retour était que Google s’en moquait, au point que l’expression « notre industrie est terminée » a été employée
Les entreprises de médias web ne peuvent désormais plus compter de façon fiable sur le trafic entrant provenant de Google ou de Facebook, et très peu peuvent survivre avec le trafic restant

Comment le classement de la recherche est devenu une boîte noire

Le problème ne se limite pas à l’échec de certains sites ; il s’inscrit dans la manière dont Google a utilisé le machine learning pour classer les sites afin de corriger ses résultats de recherche
Selon What we can learn from the Google creators summit for HCU impacted sites, le helpful content system était un système de machine learning entraîné sur de bons et de mauvais exemples afin de prédire de quel côté se rapprochaient des exemples jamais vus
Mais, au cours de l’année écoulée, Google Search a été critiqué pour avoir laissé passer beaucoup de spam généré par des LLM et fait disparaître les blogs et petits sites de la plupart des résultats
Certains sites ont de fait été exclus par le modèle de machine learning, sans que personne ne sache précisément pourquoi
Dans I Drank the Kool-Aid at the 2024 Google Web Creator Summit, un participant explique qu’après un chiffre d’affaires de 250 000 dollars l’année précédente, son trafic a reculé de 97 % et qu’il se nourrit désormais grâce à une banque alimentaire
Le problème ressort d’autant plus que ces personnes avaient été invitées au Summit parce qu’elles produisaient le type de contenu que Google voulait voir apparaître dans ses résultats de recherche
Dans une conversation sur Twitter, il a été partagé que des représentants de Google avaient répété à plusieurs reprises que « le contenu n’était pas le problème », et que Danny avait pris les exemples des participants pour les déboguer avec l’équipe d’ingénierie, sans réussir à comprendre pourquoi ils n’étaient pas affichés
L’algorithme de recherche semble être devenu une boîte noire difficile à appréhender même pour les ingénieurs de Google

Une structure où la détérioration du produit ne pèse pas sur les performances commerciales

Le fait que des spécialistes ML de Google aient averti que les LLM pouvaient rendre les produits confus et difficiles à contrôler, et qu’il fallait les éviter, est également lié à ce problème
Quand des licenciements massifs font partir des personnes qui comprenaient en profondeur les systèmes internes, les systèmes restants peuvent plus facilement se transformer en boîtes noires
La raison fondamentale pour laquelle la détérioration se poursuit est qu’elle n’a pas d’impact direct sur les résultats commerciaux de Google ; une entreprise en situation de monopole peut capter la valeur générée autour d’elle même lorsque l’utilité de ses produits diminue
Compte tenu de la situation politique aux États-Unis, cela mène à la perspective d’un renforcement des monopoles et oligopoles dans l’industrie technologique, tandis que la productivité, les performances et l’efficacité réelles des produits compteront de moins en moins

1 commentaires

GN⁺ 2024-12-01

Avis sur Hacker News

Fondamentalement, je pense que cela a commencé au moment où les gens de la publicité ont gagné la lutte de pouvoir contre ceux du moteur de recherche. Avant, la publicité était un moyen de financer la création de technologies formidables, avec en prime la possibilité de devenir immensément riche.
Aujourd’hui, ce n’est plus qu’un moyen d’extraire du système jusqu’à la dernière goutte de valeur et de faire monter les chiffres indéfiniment, et la haute direction de Google semble totalement dépourvue de vision comme de stratégie.
- Il est difficile de citer une seule chose vraiment impressionnante que Google ait faite au cours des 15 dernières années. La recherche a atteint son apogée vers 2009, Maps est devenu plus lent et moins riche en informations, et au lieu de montrer tout ce qui se trouve dans un lieu comme autrefois, il tend désormais à ne montrer que ce qui est populaire ou payé.
  Google Docs était également stupéfiant en 2006, mais près de 20 ans plus tard il n’a reçu que quelques améliorations d’ergonomie ; pour le reste, beaucoup de projets semblent avoir été fermés, n’avoir jamais été particulièrement innovants, ou avoir suivi mollement le travail des autres.
- Cela ressemble à une satire où le maximiseur de trombones annonce des progrès réguliers et encourageants dans la conversion de toute la matière disponible du système terrestre en trombones, et où l’action $PCLIP gagne 20 % à cette nouvelle.
- Le plus important, c’est que le contenu continue d’exploser, tandis que l’attention humaine totale n’augmente pas. Alors comment la technologie publicitaire parvient-elle à générer plus de revenus et à vendre plus de publicités chaque année ? À mon avis, la réponse simple est : la fraude.
- Je ne vois pas en quoi dire que la publicité a gagné explique la dégradation des résultats de recherche Google. Les publicités ne sont vues que si la qualité de la recherche est élevée et que les gens ne partent pas chez un concurrent.
  La publicité peut remplir les résultats sponsorisés en haut de page, mais elle n’affecte pas les résultats organiques. Si « la publicité a gagné » signifie qu’il y a davantage d’emplacements sponsorisés, alors cela veut seulement dire qu’il y a plus d’emplacements ; cela n’explique pas la qualité des résultats organiques.
- Si, autrefois, la publicité était un moyen de financer la création de technologies formidables, il faut se demander ce qu’elle est aujourd’hui. Si la « technologie » financée consiste en réalité à diffuser de la publicité via des réseaux informatiques, on peut se demander si c’est vraiment une technologie formidable.
  Sinon, cette technologie formidable n’est peut-être qu’un appât pour attirer les personnes ciblées par la publicité, autrement dit un composant de la technologie de service publicitaire. On peut aussi se demander pourquoi ne pas simplement vendre ou concéder sous licence cette technologie, plutôt que d’embaucher des équipes publicitaires.
Comme l’a dit Morgan, ce qui m’a frappé, c’est que Danny se soit assis dans une pièce avec une équipe d’ingénieurs, leur ait donné des exemples en demandant « pourquoi ces personnes n’apparaissent-elles pas ? », qu’ils aient suivi une procédure de débogage, mais qu’ils n’aient pas trouvé la cause.
Pendant ce temps, quelqu’un en Suède, avec une seule machine de bureau dans son salon, a créé un moteur de recherche suffisamment bon pour que je bascule souvent dessus quand Google échoue. Ces temps-ci, j’utilise Kagi : il propose des priorités et des listes de blocage, mais les résultats sont bons par défaut, donc je n’utilise pas ces fonctions.
Kagi construit bien son propre index, mais pendant longtemps il ressemblait surtout à une revente de résultats Google+Bing enveloppés, et c’est intéressant de voir qu’il était pourtant bien meilleur.
Il y a deux possibilités. Soit Kagi dispose d’un système très intelligent qui lit les quelques dizaines de premiers résultats et les réordonne, soit, plus vraisemblablement, son accès API lui permet de contourner le « dispositif d’expansion et d’abrutissement des requêtes » côté entrée de Google ainsi que l’étape de personnalisation côté sortie, pour interagir directement avec le cœur encore fonctionnel de la recherche Google.
Par « dispositif d’abrutissement », j’entends le pipeline qui remplace obscure-js-lib par un well-knowm-js-lib-with-kind-of-similar-name au nom similaire, ou qui décide que lorsque vous cherchez mat-table d’Angular, vous voulez en fait des tables avec des tapis, sans rapport avec Angular.
- Ce dispositif d’abrutissement transforme aussi des recherches comme SmartOS ou Illumos en Solaris, ne renvoyant que des résultats sans rapport.
- Exploiter un petit moteur de recherche peut apporter un avantage intégré : les spécialistes du référencement ne cherchent pas à manipuler ses résultats.
- Quand on cherche exactly-this-thing.py sur Google, on a l’impression qu’il répond : « Vous vouliez sûrement dire sorta-related.js. Le voici. » Ça donne spontanément envie de répliquer : « J’ai bégayé ? »
- D’après la FAQ de Kagi, « les résultats de recherche incluent aussi des appels API anonymisés aux principaux fournisseurs de résultats de recherche dans le monde », donc il ne semble pas s’appuyer uniquement sur son propre index.
- Je me demande quel est ce moteur de recherche suédois.
Je ne suis pas sûr de comprendre précisément de quel problème parle l’auteur. Est-ce le fait que certains sites ont bâti leur modèle économique sur les résultats de recherche, le fait que Google a modifié son algorithme de recherche et que ses priorités ne lui plaisent pas, ou autre chose ? Ce n’est pas clair.
Attendre de Google qu’il ne mène jamais d’expériences sur ses algorithmes est assez déraisonnable, et, au fond, cela ressemble à un jeu à somme nulle. On peut être gagnant aujourd’hui et perdant demain.
Si l’on s’inquiète du partage des revenus, du trafic entrant ou du placement publicitaire, bâtir une activité dont le succès dépend entièrement des caprices d’une autre entreprise n’est pas très judicieux.
La recherche est peu à peu remplacée par les grands modèles de langage et, comme elle a été « gamifiée » pendant des années par l’optimisation pour les moteurs de recherche, elle devient à mon avis de plus en plus mauvaise comme mode de découverte de contenu.
Pour découvrir du contenu, un modèle où des communautés aux centres d’intérêt similaires, comme Hacker News, le trouvent collectivement, ou bien un modèle de curation, me semble plus adapté. Si le curateur ou la communauté s’éloigne de vos centres d’intérêt, il faut en trouver un autre, mais, curieusement, cela peut encore fonctionner dans le même cadre.
- Quelles options a-t-on quand cette autre entreprise est un monopole ? L’essor de Google a, de fait, tué toutes les autres sources de trafic.
  Les sites web d’autrefois recevaient du trafic des webrings, des annuaires et de nombreux petits moteurs de recherche ; aujourd’hui, c’est presque entièrement Google ou ses propriétés, avec une part plus réduite pour Meta. Les modèles de découverte fondés sur des curateurs et des communautés sont des victimes de Google, pas une solution.
- La théorie est qu’à force d’ajouter des couches d’optimisation fondées sur le machine learning à la recherche, celle-ci est devenue presque impossible à déboguer.
  Autrement dit, Google aurait lancé 1000 expériences qui augmentaient le taux de clics de 0,2 % et semblaient inoffensives, avec pour résultat un système qui ne veut plus servir que des liens Reddit et Quora.
  J’ai vu cette idée plusieurs fois dans la section Blind privée de Google, généralement accompagnée de discussions disant que les responsables de la recherche avant 2020 s’inquiétaient de ce genre de résultat et adoptaient une approche plus prudente.
  En tant qu’ancien employé de Google, parti en octobre 2023, je n’ai pas travaillé dans l’équipe Search, mais cette théorie semble mal comprise en dehors de Google. Les seules exceptions sont deux billets de blog assez connus, dont je ne me souviens plus des noms, mais qui mettaient le doigt sur le problème.
- Je me demande comment un modèle de découverte de contenu fondé sur des communautés aux intérêts similaires ou sur de la curation pourrait passer à l’échelle. Google traite 8,5 milliards de recherches par jour ; traiter 8,5 milliards de « Ask HN : quelles sont les meilleures ressources sur X ? » ne me semble pas scalable.
- Dans cet esprit, j’aimerais bien qu’il existe un app store Android curaté. Le fait qu’on ne puisse toujours pas filtrer les applications sans publicité en dit long.
- La raison pour laquelle tous les subreddits qui touchent de près ou de loin à la politique ou à l’actualité sont aussi biaisés, c’est précisément la curation communautaire. Bien sûr, je ne connais pas d’alternative ; si je la connaissais, je serais en train de construire ce site idéal au lieu de scroller HN.
Je me demande s’il existe une liste de requêtes pour lesquelles Google produit de mauvais résultats. J’ai parcouru mon historique de recherche pendant quelques minutes, et il s’agissait surtout de requêtes simples, comme des noms de personnes, que Google a bien traitées. Pour rechercher des personnes, j’ai parfois l’impression que Google est meilleur que LinkedIn.
J’ai aussi comparé quelques requêtes complexes avec Kagi. Pour « How much bitcoin does microstrategy own », Google a renvoyé le bon extrait ici, tandis que Kagi n’a lié que des articles sur la quantité acquise ces derniers jours.
Pour « how to pronounce stratchery », Google a affiché le bon extrait du site Stratechery, alors que le premier résultat de Kagi était une entrée de spam avec une mauvaise prononciation, et le deuxième résultat un tweet avec la bonne prononciation.
L’article de Dan Luu (https://danluu.com/seo-spam/) m’est aussi venu à l’esprit, mais en regardant mon historique de recherche, les requêtes qu’il utilise ne représentaient pas du tout mes recherches quotidiennes.
[0]https://www.forbes.com/sites/digital-assets/2024/11/29/micro...
[1]https://stratechery.com/category/about/#:~:text=UPDATE%3A%20...
[2]https://www.howtopronounce.com/stratechery
- Tu as déjà, inconsciemment, modifié ton comportement de recherche pour éviter les catégories où Google est lamentable.
  Les avis produits sont remplis de déchets optimisés pour les moteurs de recherche, c’est-à-dire de listes « Top 10 » de blogspam, et pour tout ce qui concerne le voyage, les publicités remplissent une page entière avant même d’arriver aux résultats organiques. On finit par ne même plus essayer par lassitude, et il ne reste que les requêtes qui fonctionnent encore.
- Je me posais la même question. Je vois beaucoup de plaintes disant que Google est atroce et cassé, mais, à part les choses sur lesquelles tous les moteurs de recherche ont du mal, il semble globalement bien fonctionner.
  Je me demande s’il existe des exemples précis de choses difficiles à trouver avec Google mais faciles avec autre chose.
  Les statistiques mondiales d’utilisation récentes sont : Google 89,33 %, Bing 4,15 %, YANDEX 2,8 %, Yahoo! 1,33 %, Baidu 0,83 %, DuckDuckGo 0,69 %. Données d’octobre 2024 : https://gs.statcounter.com/search-engine-market-share
  Si Google est si mauvais, je me demande pourquoi les gens, moi compris, ne cliquent pas vers d’autres moteurs de recherche. C’est dommage que Giant Freakin Robot ne reçoive pas de clics, mais c’est un autre problème que de dire que Google est mauvais du point de vue utilisateur.
  Je les ai tous essayés, et ils fonctionnent tous. Baidu s’affiche en chinois, et quand j’ai cherché The Sound of Music, les résultats chinois donnaient, d’après Google Traduction, quelque chose comme « la nonne et les sept enfants turbulents », ce qui m’a fait sourire.
Google s’est clairement détourné de la priorité donnée à la valeur pour les clients et pour les créateurs de contenu, au profit d’indicateurs clés de performance internes et opaques. C’est encore plus vrai pour les créateurs que pour les annonceurs
Après être passé à DuckDuckGo il y a quelques années, puis à Kagi l’an dernier, chaque retour occasionnel sur Google me fait clairement sentir à quel point ils se sont égarés
Il faudra sans doute encore dix ans avant qu’ils perdent leur domination, mais les signes sont évidents. Seules l’inertie et leur position de marché expliquent qu’ils soient encore au sommet. Pendant ce temps, les jeunes générations utilisent très peu la recherche web, et les personnes à l’aise avec la tech s’en détournent de plus en plus vite
Du point de vue d’une startup, c’est plutôt encourageant. Google n’est plus le gorille de 800 livres qui va venir vous piquer votre déjeuner, mais plutôt un géant mort-vivant qui attend qu’on vienne récolter ses composants conceptuels
- Depuis que je suis passé à Kagi, et après avoir subi ces deux dernières années les évolutions agaçantes de Google Search, j’ai du mal à imaginer revenir à Google
  Cette année, je ne suis allé sur Google depuis Kagi avec !g qu’une poignée de fois, et je l’ai regretté immédiatement à chaque fois
  Il y a quelques années, quand j’utilisais DuckDuckGo, !g était devenu un réflexe, et dans peut-être la moitié des cas les résultats de Google me semblaient meilleurs. Rester sur DuckDuckGo relevait de l’idéalisme, avec une qualité qui paraissait de second rang, mais Kagi ne donne pas cette impression. Les 10 dollars par mois sont largement rentabilisés par le gain de productivité
  Comme Kagi utilise aussi l’index de recherche de Google parmi ses sources, ce n’est pas que Google soit techniquement incapable d’améliorer ses résultats ou son expérience utilisateur. C’est juste que cela semble impossible sur le plan organisationnel
- Si les jeunes générations utilisent très peu la recherche web, je me demande ce qu’elles font à la place. Je suis peut-être un peu dépassé
- Les clients de Google, ce sont les annonceurs. Le client, c’est celui qui paie ; le consommateur n’est qu’un produit
On avait prévenu que l’une des conséquences fréquentes des licenciements massifs était de transformer les systèmes internes en boîtes noires, parce que toutes les personnes qui les comprenaient en profondeur partaient
Perdre directement des personnes compétentes arrive réellement, mais ce n’est pas la raison principale pour laquelle ces systèmes deviennent des boîtes noires
Pour chaque personne compétente licenciée, il y en a une vingtaine qui restent et s’adaptent à la réalité d’un avenir beaucoup plus incertain dans l’entreprise. Cette adaptation varie selon les gens, mais littéralement personne ne se dit : « Waouh, je devrais améliorer la documentation et partager mes connaissances pour rendre mon licenciement plus facile ! »
- Quand j’ai quitté mon poste, j’ai décidé de commencer à documenter, et j’ai préparé une documentation solide avant de donner mon préavis de deux semaines. Pendant le temps restant, je l’ai peaufinée, et elle est devenue plutôt bonne
  Un mois plus tard, l’entreprise m’a contacté pour me proposer une mission en contrat, mais j’ai refusé. Pendant l’année suivante, des employés m’ont contacté directement pour demander de l’aide, alors que tout ce pour quoi je les ai aidés était déjà documenté
  Je ne pense pas qu’il existe de vraie solution en entreprise pour assurer un transfert de connaissances correct. C’est pour ça qu’il est intéressant de voir des gens licenciés à l’improviste : l’entreprise perd bien plus qu’un simple employé
- Il est vrai que des gens créent des silos de connaissances dans l’idée erronée de protéger leur emploi, mais pour ceux qui le font délibérément, je voudrais souligner les conséquences
  Les silos de connaissances ne garantissent pas la sécurité de l’emploi. Au contraire, ils limitent la capacité à être promu, à collaborer entre organisations, à s’adapter, à prendre d’autres tâches, à déléguer, et ils réduisent la collaboration ainsi que le taux de réussite des projets, ce qui diminue aussi les résultats visibles au sein de l’organisation. Il y a beaucoup d’autres raisons pour lesquelles c’est mauvais, non seulement pour l’organisation, mais aussi pour l’ingénieur qui vit dans ce silo, et plusieurs études existent sur le sujet
- J’ai aussi vu l’effet inverse. Dans de grandes organisations, certaines personnes essayaient de rendre des projets open source plus résistants aux changements d’organisation et de priorités. Cela dit, les licenciements ont bien des effets secondaires
Yandex, le Google russe, ressemble en réalité plutôt au Google de 2006. Au sens où il me montre ce que je veux, et non ce que les avocats de Google et les gens de SF qui préparent leurs dossiers de promotion veulent me montrer
Les contenus liés à la Russie peuvent être censurés, mais dans mon usage, c’est largement hors périmètre
- Yandex n’est bon que pour les recherches en anglais. Parce qu’ils ne s’intéressent pas au marché anglophone. Ils semblent ne s’intéresser qu’aux marchés russophone et turcophones, et j’ai un souvenir flou concernant le Vietnam aussi
- Yandex suit la même trajectoire. La recherche d’image inversée de Yandex trouvait autrefois les sites web où se trouvait l’image, comme Google avant ; maintenant, c’est devenu la même saloperie d’« images similaires »
- La majeure partie du Google de 2006 n’était-elle pas open source ou décrite dans des articles publics ? Dans ce cas, on devrait pouvoir le reproduire aux États-Unis aussi et revenir au PageRank de base
  Je ne sais pas ce qui empêche un nouveau moteur de recherche, à part l’échelle et les serveurs. Si tout ce que nous voulons, c’est la vieille recherche ordinaire qui existait en 2006, cela semble reproductible
  Il existe bien d’autres moteurs comme DuckDuckGo, mais j’ai fini par comprendre qu’en pratique il est assez proche de Bing. Dans ce cas, si Google est si mauvais, je me demande aussi pourquoi Bing n’a pas pris le dessus. Il n’est pas excellent, mais pas si mauvais non plus
  En lisant davantage, il semble que Kagi fasse cela
- Tout à fait d’accord. Ça donne l’impression d’un Internet alternatif où Google serait resté cool
- J’utilise DuckDuckGo comme moteur de recherche principal, et Yandex en complément
C’est un article implacable qui montre comment Google a été détruit de l’intérieur
https://www.wheresyoured.at/the-men-who-killed-google/
- Même sans informations internes, je me souviens de la mise à jour de Google fin 2019. C’est là que ça s’est vraiment dégradé, et qu’ils sont passés de « ne pas être malveillants » à carrément malveillants
  En réalité, cela s’est produit plus tard que je ne l’aurais imaginé, mais cela ressemble à un événement suffisamment net pour que ses répercussions se fassent encore sentir aujourd’hui
Giant Freakin' Robot était un site agrégateur. Son « contenu » se résume à des liens vers d’autres pages web accompagnés de longs commentaires. Google semble désormais reconnaître les sites agrégateurs et les classer plus bas
Google étant lui-même un site agrégateur, il n’a aucune raison d’envoyer du trafic vers d’autres agrégateurs. J’aimerais bien qu’ils rétrogradent aussi des sites comme Yelp
- En parcourant rapidement le site, il me semble qu’il ne contient que des liens vers du contenu original
Je me demande à quoi les personnes qui utilisent Internet depuis longtemps emploient la recherche sur Internet. Dans mon cas, c’est l’une de ces trois choses
Premièrement, je sais sur quel site se trouve l’information et j’y vais directement. Par exemple Wikipedia, Github ou Google Maps
Deuxièmement, j’ai besoin de l’avis ou du retour de vraies personnes, donc je fais généralement une recherche Google limitée au domaine Reddit
Troisièmement, j’ai besoin d’une information bien connue et facile à vérifier, et c’est un problème que les grands modèles de langage traitent très bien
Comme cela représente plus de 95 % de mon activité de « surf », je pense que je remarquerais à peine si les principaux moteurs de recherche tombaient un jour en panne
- Ce n’est pas utiliser Internet, c’est utiliser Reddit comme un jardin clos. Si l’on croit à la valeur d’un Internet décentralisé, c’est une approche dangereuse

La détérioration de Google

Effondrement du trafic des médias web indépendants

Comment le classement de la recherche est devenu une boîte noire

Une structure où la détérioration du produit ne pèse pas sur les performances commerciales

À lire aussi

1 commentaires

Avis sur Hacker News