L’homme qui fait tourner un service concurrent de Google dans sa buanderie grâce à l’IA
(fastcompany.com)- Un projet DIY qui a mis en place un moteur de recherche nommé Searcha Page/Seek Ninja sur un serveur personnel installé dans une buanderie, offrant une expérience comparable à Google
- Le projet est parti d’un index d’environ 2 milliards de pages et vise 4 milliards de documents d’ici six mois, en combinant des méthodes d’indexation traditionnelles avec l’extension de mots-clés et la compréhension du contexte fondées sur les LLM
- L’équipement, assemblé à partir de pièces de serveur d’occasion, repose sur un AMD EPYC 7532 (32 cœurs) et 0,5 To de RAM, pour un investissement total de 5 000 dollars, avec une stratégie d’arbitrage de mise à niveau (upgrade arbitrage) pour réduire les coûts
- Tout en minimisant la dépendance au cloud, l’inférence LLM utilise Llama 3 de SambaNova, et Seek Ninja est une version axée sur la confidentialité qui ne stocke pas de profil et n’utilise pas la localisation
- L’introduction de l’IA a rendu possible une montée en charge à faible coût, et sa base de code de 150 000 lignes a pu accélérer le développement itératif via les LLM, lui permettant de bâtir seul un système de grande ampleur
- Bien qu’il s’agisse d’une configuration personnelle et peu coûteuse, le système assure la précision et la rapidité de la recherche locale ; il envisage aussi un passage en colocation si le trafic augmente, montrant ainsi la possibilité expérimentale d’une recherche alternative
Contexte : une expérience de recherche « presque comme Google » avec un petit matériel
- En contraste avec l’histoire de Google, qui avait démarré à Stanford avec des serveurs dans un boîtier en Duplo, c’est un exemple qui montre qu’un serveur ancien peut malgré tout approcher une expérience de recherche moderne
- Il y a 30 ans, Google a commencé sous le nom de Backrub sur le campus de Stanford, en utilisant un serveur expérimental logé dans un boîtier fait de briques Duplo et contenant 40 Go de données
- Grâce à des dons d’IBM et d’Intel, l’installation a ensuite évolué vers un petit rack de serveurs, mais en 2025, Google Search a atteint une échelle qui ne peut plus tenir dans un seul datacenter
- Le Searcha Page de Ryan Pearce reproduit une expérience de recherche moderne avec une machine à peu près de la taille des premiers serveurs de Google
- Le serveur a été installé à côté de la machine à laver et du sèche-linge, après avoir été déplacé depuis la chambre pour atténuer les problèmes de chaleur et de bruit
- Malgré les contraintes d’une buanderie, la qualité réelle des résultats de recherche est jugée subjectivement proche du haut du panier
- La taille de l’index est actuellement d’environ 2 milliards de documents, avec une projection à 4 milliards de documents sous 6 mois
- Points de comparaison : Google comptait 24 millions de pages en 1998, puis 400 milliards de pages en 2020
- L’échelle absolue reste modeste, mais elle est très importante pour un serveur unique auto-hébergé
Technologie clé : indexation traditionnelle + assistance LLM
- L’architecture globale suit la structure classique d’un moteur de recherche, avec une conception hybride où les LLM aident à l’extension des mots-clés et à l’interprétation du contexte
- Cela rappelle l’intégration historique de l’IA dans les grands moteurs de recherche via RankBrain et d’autres systèmes, en soulignant que, indépendamment du rejet actuel des LLM, l’IA est déjà un élément central de la recherche
- Les LLM sont utilisés comme outils pratiques pour la construction de jeux de données et la contextualisation, afin d’améliorer la vitesse de développement et la scalabilité
- L’exploitant a d’abord implémenté certains éléments avec des LLM avant de les remplacer par une logique traditionnelle au fil des itérations ; la base de code a ainsi atteint environ 150 000 lignes
- En comptant le développement itératif, il estime la charge réelle de travail à l’équivalent de 500 000 lignes
Infrastructure : indexation en autonomie et « arbitrage de mise à niveau » avec des serveurs d’occasion
- Le matériel repose sur un serveur d’occasion basé sur AMD EPYC 7532 (32 cœurs), en tirant activement parti de la chute des prix d’un CPU qui valait plus de 3 000 dollars à sa sortie et se négocie aujourd’hui à moins de 200 dollars
- Le coût total de l’installation tourne autour de 5 000 dollars, dont environ 3 000 dollars pour le stockage
- Avec une configuration de 0,5 To de RAM, l’ensemble est capable de gérer plusieurs centaines de sessions simultanées
- Avec une approche d’auto-hébergement visant à limiter l’usage du cloud au minimum, seule l’inférence LLM passe par SambaNova (Llama 3) pour un accès rapide et peu coûteux
- Le projet utilise des corpus web publics, dont Common Crawl, pour accélérer le crawler et l’indexeur, avec l’intention de réduire cette dépendance à long terme
Produit : Searcha Page et Seek Ninja
- Searcha Page : une UX SERP traditionnelle proche de Google, avec des résultats pertinents aussi pour la recherche locale
- Au lieu de la meta description, il est fait mention de résumés générés par LLM pour mieux expliquer la pertinence entre requête et document
- Seek Ninja : une variante priorité à la confidentialité, sans stockage de profil et sans usage de la localisation
- Une approche légère et minimaliste, adaptée comme alternative au mode navigation privée
- Côté monétisation, le projet teste des publicités d’affiliation discrètes plutôt que des bannières envahissantes, et prévoit un passage en colocation si le trafic augmente
Cas de comparaison : l’approche cloud et vecteur de Wilson Lin
- Dans une autre expérimentation individuelle contemporaine, Wilson Lin poursuit une stratégie cloud-native combinée à son propre moteur vectoriel (CoreNN) pour viser une exploitation à très bas coût
- Il génère un résumé LLM pour chaque document afin d’exprimer autrement la mise en relation entre requête et document
- Il partage l’idée que le principal obstacle relève davantage du marché et des canaux que de la technologie elle-même
- Pearce a lui aussi essayé à un moment une base de données vectorielle, mais il juge les résultats flous et presque artistiques, au point de revenir aux méthodes traditionnelles du point de vue de la précision du classement
Enjeux d’exploitation : chaleur, bruit et contraintes physiques d’une buanderie
- Le serveur, qui provoquait des problèmes de vie quotidienne à cause de la chaleur dans la chambre, a été déplacé vers une pièce technique, avec des perçages pour les câbles afin de préserver la connectivité
- Si la porte reste fermée trop longtemps, l’accumulation de chaleur peut devenir problématique, ce qui fait de la ventilation un élément important
- Bien qu’il soit plutôt sceptique vis-à-vis du cloud, il envisage un passage vers la colocation en datacenter sur la base de seuils déclencheurs, en tenant compte des limites liées aux LLM et au trafic
Portée : l’expérience d’un développeur solo pour rattraper Google, et le rôle concret des LLM
- Contrairement à l’idée reçue selon laquelle les LLM seraient des outils qui dégradent la qualité de la recherche, ils apparaissent ici comme des accélérateurs de développement et de montée en charge, donnant à un individu la capacité réelle de construire un moteur de recherche
- Le compromis indexation traditionnelle + assistance LLM constitue une approche pragmatique qui cherche à concilier précision et capacité d’explication
- La combinaison serveur d’occasion à bas coût + corpus publics + API LLM bon marché montre qu’il est possible de tenter une recherche alternative sans disposer des ressources massives des Big Tech
- Des défis subsistent, comme l’extension à d’autres langues, le coût du crawling continu ou la résistance au spam, mais le projet montre une compétitivité expérimentale dans les domaines de la recherche de niche et de la protection de la vie privée
2 commentaires
Lien pour contourner le paywall https://archive.is/dLEl5
Réactions sur Hacker News
J’ai créé moi-même un index de domaines. Je n’ai pas crawlé toutes les pages internes de chaque domaine, mais ce n’était pas le but. J’ai actuellement 1 542 766 domaines. Ce n’est pas énorme, mais ce sont des données collectées honnêtement. C’est disponible pour tout le monde dans le dépôt GitHub, donc si vous voulez commencer à crawler, ça peut servir de référence : Internet-Places-Database
Projet vraiment sympa. Au début, je me demandais ce qui t’avait inspiré. Et il y a un lien cassé dans le Readme :
https://rumca-js.github.io/internet full internet searchSi on demande les zone files de l’ICANN, on n’obtient pas la liste officielle des domaines pour la journée, non ?
J’avais essayé de me lancer dans un truc comme ça en 2023 ! Le plus dur quand on construit un moteur de recherche, ce n’est pas vraiment la "recherche" elle-même, c’est de créer l’index et, comme d’autres l’ont dit, de crawler un Internet très hostile, surtout quand on fait tourner ça sur un unique serveur domestique sans rotation d’IP. J’espère que cette personne va réussir et devenir une référence dans la communauté, comme le créateur de Marginalia. Cet article me donne envie de réessayer moi aussi
Ça vaut sans doute le coup de garder open-webindex d’openwebsearch.eu dans ses favoris. Ce n’est pas encore open source, mais ça pourrait être publié une fois la bêta terminée. Le plan détaillé reste flou pour l’instant
Je me demande si les données de commoncrawl sont exploitables pour ce genre de projet
Je me suis demandé ce que donnerait un crawling en crowdsourcing. Ça pourrait résoudre le problème de la rotation d’IP et répartir la charge
La question des IP est intéressante. J’avais créé autrefois un bot CSGO pour scraper les prix sur Steam, et même en louant un service de proxy, je me faisais bloquer par Steam. Je me demande donc si les gens achètent de vraies IP
Il y a clairement une différence entre avoir un index et ne pas en avoir. Mais classer les résultats, c’est encore autre chose. Par exemple, que faut-il afficher à la page 200, et est-ce que les résultats qui s’y trouvent ont encore un sens ?
J’ai lancé une recherche au hasard sur https://searcha.page/ et j’ai reçu le message : "Une erreur s’est produite lors de la génération des résultats de recherche"
J’espère qu’il ne s’est pas pris le hug of death. La température de la laverie doit grimper en flèche
Mon volume d’utilisation a été multiplié par 20 cette semaine par rapport à la précédente. Le vrai goulot d’étranglement n’était pas le service de recherche lui-même, mais l’extension du contexte. Le graphe d’usage est presque vertical. Je ne sais pas trop si c’était une bonne semaine ou non
J’ai observé exactement la même chose sur https://seek.ninja/s?q=beatles
Avant ça, la première page de résultats (SERP) était franchement impressionnante
J’ai reçu un message disant que j’avais atteint la limite d’articles. Ça devait faire une dizaine d’années que je n’avais pas vu de lien Fast Company ! J’étais presque enthousiaste à l’idée de relire leurs articles après si longtemps, mais ça s’est terminé en déception. J’ai consulté le contenu via archive, et en gros :
J’ai récemment dévoré les billets de blog de Wilson Lin, et c’est extrêmement instructif et de grande qualité pour les amateurs intéressés par les moteurs de recherche et les LLM : blog
Le mode lecture de Firefox, parfois avec un rafraîchissement en plus, permet de contourner la plupart des paywalls, y compris pour cet article
"Le processeur AMD EPYC 7532 à 32 cœurs coûtait plus de 3 000 $ à sa sortie, mais on peut maintenant en trouver sur eBay à moins de 200 $." Pourquoi ce genre de super affaire n’apparaît-il jamais quand c’est moi qui cherche des pièces pour mon homelab ?
Il faut être prêt à passer du temps à fouiller des annonces mal étiquetées et à acheter aussi chez des vendeurs sans réputation
Si tu cherches 'AMD EPYC 7532', il y a plein d’annonces entre 150 et 200 $. Je me demande si tu es surtout déçu parce que ce n’était pas ce niveau de prix quand tu cherchais des pièces pour ton homelab
Ce n’est pas un CPU, mais j’ai acheté en début d’année sur eBay une station de travail Thinkpad fabriquée en 2020 pour 500 $. Neuve, elle valait 5 700 $. Le marché du hardware sur eBay fonctionne comme ça. Il suffit d’attendre cinq ans pour que le prix tombe à un dixième
Il y a parfois de bonnes affaires sur TheServerStore.com. En début d’année, j’y ai monté d’un coup un serveur EPYC 7702 à 64 cœurs (256 Go de RAM, 8 To de NVMe) neuf pour environ 3 000 $
Une autre approche consiste à acheter des puces de grade QC et à tenter le coup soi-même. C’est aussi comme ça que j’achète. Dans mon cas, le plus gros coût, c’était les disques, puis la RAM. Les puces, elles, m’ont semblé relativement abordables
Je trouve le projet très cool, et j’espère surtout qu’il restera amusant. Moi aussi, j’ai fantasmé des dizaines de fois sur l’idée de créer un moteur de recherche personnel, mais je finis toujours par me heurter à un mur. L’Internet de 1999 et celui d’aujourd’hui n’ont plus grand-chose à voir. Aujourd’hui, la découverte du web elle-même n’a plus vraiment la même valeur. Par exemple, on peut tomber sur le blog perso de quelqu’un consacré aux dinosaures, mais il n’a pas été mis à jour depuis 2004, les images et les liens sont cassés, et au final Wikipédia ou le Smithsonian feront bien mieux. Trouver ce genre de site personnel atypique reste amusant, mais ce n’est plus aussi précieux qu’avant. En pratique, on revient vers un réseau centré sur des "hubs" où chaque plateforme monopolise un type de contenu précis : YouTube, TikTok, Medium, Reddit, Mayo Clinic, etc. Ces grandes plateformes sont strictes avec les crawlers individuels, mais favorables au crawler de Google, parce que Google leur apporte du trafic utilisateur. Est-ce qu’elles laisseraient passer mon crawler aussi facilement ? Malgré tout, je n’abandonne pas. Peut-être qu’un Internet basé sur des hubs a besoin d’un moteur de recherche conscient des hubs
L’expression "Google rival" me paraît un peu exagérée. Dire simplement "moteur de recherche" serait même plus juste, vu tout ce que fait Google aujourd’hui
Je ne peux pas répondre individuellement à tout le monde, mais c’est bien moi qui exploite ce moteur de recherche. Oui, le service est tombé aujourd’hui à cause de l’explosion du trafic. L’usage a été multiplié par 20 par rapport à la semaine dernière, et je n’étais absolument pas préparé. J’avais vaguement imaginé dans ma tête que la croissance des utilisateurs serait lente et régulière. Merci à tous ceux qui l’ont utilisé, et désolé si le service n’a pas bien fonctionné. C’était la première fois que je passais un vrai "baptême du feu"
Excellente combinaison entre innovation remarquable et self-hosting sceptique vis-à-vis du cloud. J’aimerais vraiment voir beaucoup plus de choses comme ça