1 points par GN⁺ 2024-02-26 | 1 commentaires | Partager sur WhatsApp

L'évolution du moteur de recherche Marginalia

  • Au départ, Marginalia Search était une petite expérimentation, mais c'est désormais devenu un projet à plein temps.
  • Le moteur de recherche fonctionne aujourd'hui mieux que jamais et a franchi de nombreuses étapes importantes.
  • Le moteur de recherche a quitté le salon pour être migré vers un véritable serveur d'entreprise.

Nettoyage de la base de code et rationalisation de l'application

  • Le thème principal de cette année a été le nettoyage de la base de code et la rationalisation de l'application.
  • L'accent a été mis sur le maintien d'une charge opérationnelle gérable et sur le fait de permettre à d'autres d'accéder plus facilement à l'application et à la base de code.
  • Cela a demandé beaucoup de travail, mais les résultats commencent à se voir.

Améliorations opérationnelles

  • Par le passé, le basculement d'index nécessitait plusieurs jours d'interruption, mais ce n'est plus le cas.
  • Récemment, les mises à niveau sans interruption sont également devenues possibles.
  • Sur le plan opérationnel, ce qui demandait auparavant des semaines de processus manuels a désormais été remplacé par un simple clic sur un bouton dans l'interface graphique.

Ajout de la prise en charge des mots-clés de texte d'ancrage

  • L'ajout de la prise en charge des mots-clés issus du texte d'ancrage a eu un impact majeur sur la capacité du moteur de recherche à trouver des résultats pertinents.
  • Lorsque ce changement a été introduit, l'intégration n'était pas encore très bonne et son effet n'a donc pas été immédiatement visible, mais à mesure que ce nouveau signal de pertinence s'est installé, des moments étonnants sont apparus.

Passage au temps plein

  • Grâce au soutien de NLnet, le projet est passé à plein temps il y a environ huit mois.
  • La partie la plus difficile a été de ne pas trop travailler, et l'objectif est d'essayer de prendre au moins un jour de repos par semaine.
  • Comme il est clair qu'un repos suffisant rend plus intelligent, il est théoriquement important de faire des pauses de temps en temps pour mieux travailler.

Objectif d'indexation d'un milliard de documents

  • Le chemin vers l'indexation d'un milliard de documents progresse lentement.
  • La difficulté est plus grande que prévu, non pas parce que le logiciel ne peut pas le gérer, mais parce que le rapport signal/bruit du Web n'est pas bon.
  • L'une des grandes raisons pour lesquelles le moteur de recherche fonctionne relativement bien tient à ce qu'il n'indexe pas.
  • L'index comptait entre 50 et 100 millions de documents il y a un an, a atteint 220 millions lors du dernier crawl, et devrait se situer entre 290 et 300 millions à la fin du prochain cycle de crawl.

Améliorations de l'analyse et de l'exécution des requêtes

  • Il reste beaucoup de marge d'amélioration dans l'analyse et l'exécution des requêtes.
  • Des travaux préparatoires ont commencé pour remettre en ordre le code concerné avant le début du véritable travail.
  • Les grands bonds du projet ont toujours été expérimentaux ; certains sont planifiés, mais ce sont vraisemblablement les éléments non planifiés qui auront le plus d'impact.

Remerciements

  • Remerciements à NLnet, FUTO, aux soutiens Patreon, aux défenseurs du projet et aux utilisateurs.
  • Sans leur soutien, tout cela aurait été impossible.

L'avis de GN⁺

  • Le moteur de recherche Marginalia est un exemple de projet qui a commencé comme une petite expérimentation avant de devenir un projet à plein temps grâce à des améliorations continues et au soutien de la communauté.
  • Des améliorations fonctionnelles comme la prise en charge des mots-clés de texte d'ancrage ont constitué des changements importants, améliorant fortement les performances du moteur de recherche.
  • Ce projet offre à la communauté open source et aux développeurs des occasions de collaboration et de contribution, tout en participant au progrès des technologies de moteur de recherche.

1 commentaires

 
GN⁺ 2024-02-26
Avis sur Hacker News
  • Un utilisateur a mis ce site en favori pour trouver des ressources très spécifiques sur la modélisation numérique. Il y a découvert des documents introuvables sur Google au sujet des solveurs, de la génération de maillages et des méthodes d’optimisation des années 1980 et 1990, ainsi que des sites rédigés par des experts que Google n’aurait jamais permis de trouver, ce qu’il juge très précieux.
  • Le rapport signal/bruit du web n’est pas bon, ce qui rend la tâche plus difficile que prévu. L’une des raisons pour lesquelles les moteurs de recherche fonctionnent relativement bien est justement ce qu’ils n’indexent pas.
  • Un utilisateur raconte avoir trouvé un site web aléatoire contenant un patch binaire pour C&C Tiberian Sun avec prise en charge d’IPv6, ce qui lui a rappelé le vieux web. Cela lui évoque les Searchlores de Fravia, et ce que cela aurait donné si Umberto Eco s’était intéressé à l’informatique. C’est comme découvrir quelque chose d’étonnant dans le labyrinthe-bibliothèque du Nom de la rose, puis le perdre à jamais plus tard.
  • Un autre utilisateur dit que cela donne une impression d’ancien temps. En 1998, même avec AltaVista, on ne pouvait pas trouver les différences entre le livre et le film À l’Ouest, rien de nouveau, mais aujourd’hui on peut trouver d’innombrables pages de blogs personnels, articles universitaires, sites de code, discussions sur des mailing lists, blogs, groupes de discussion Rust, sites personnels et échanges d’experts sur ce sujet.
  • Un utilisateur dit avoir été surpris en cherchant transformers intuition. Alors que Google lui montrait des sites optimisés pour le SEO, principalement Medium, ainsi que des sites tape-à-l’œil au contenu inférieur, les résultats de ce moteur de recherche l’ont impressionné.
  • Un utilisateur se demande si Common Crawl pourrait être utile. Le corpus représente actuellement environ 100 To et 3,35 milliards de pages ; à moins de le traiter directement sur S3, le téléchargement prendrait beaucoup de temps, et il ne sait pas quel serait le rapport signal/bruit.
  • Un utilisateur s’interroge sur la fonctionnalité de « site aléatoire ». Il s’attendait à un échantillonnage uniforme, mais a l’impression que certains sites reviennent de manière répétée.
  • Un utilisateur dit qu’il ne s’en sert pas souvent parce qu’il est habitué à Google, mais qu’il trouve Marginalia très cool, et pense l’utiliser davantage à l’avenir à mesure que les sites de spam SEO et les réponses générées par l’IA deviennent de plus en plus courants.
  • Enfin, un utilisateur dit avoir comparé récemment les résultats avec ceux de Google : les résultats sur le plus faible score de l’équipe d’Inde en Test cricket étaient mauvais, ceux sur un calculateur RAID étaient corrects mais bruités, et la recherche sur les différences entre le film et le livre À l’Ouest, rien de nouveau ne renvoyait aucun résultat.