L'évolution du moteur de recherche Marginalia
- Au départ, Marginalia Search était une petite expérimentation, mais c'est désormais devenu un projet à plein temps.
- Le moteur de recherche fonctionne aujourd'hui mieux que jamais et a franchi de nombreuses étapes importantes.
- Le moteur de recherche a quitté le salon pour être migré vers un véritable serveur d'entreprise.
Nettoyage de la base de code et rationalisation de l'application
- Le thème principal de cette année a été le nettoyage de la base de code et la rationalisation de l'application.
- L'accent a été mis sur le maintien d'une charge opérationnelle gérable et sur le fait de permettre à d'autres d'accéder plus facilement à l'application et à la base de code.
- Cela a demandé beaucoup de travail, mais les résultats commencent à se voir.
Améliorations opérationnelles
- Par le passé, le basculement d'index nécessitait plusieurs jours d'interruption, mais ce n'est plus le cas.
- Récemment, les mises à niveau sans interruption sont également devenues possibles.
- Sur le plan opérationnel, ce qui demandait auparavant des semaines de processus manuels a désormais été remplacé par un simple clic sur un bouton dans l'interface graphique.
Ajout de la prise en charge des mots-clés de texte d'ancrage
- L'ajout de la prise en charge des mots-clés issus du texte d'ancrage a eu un impact majeur sur la capacité du moteur de recherche à trouver des résultats pertinents.
- Lorsque ce changement a été introduit, l'intégration n'était pas encore très bonne et son effet n'a donc pas été immédiatement visible, mais à mesure que ce nouveau signal de pertinence s'est installé, des moments étonnants sont apparus.
Passage au temps plein
- Grâce au soutien de NLnet, le projet est passé à plein temps il y a environ huit mois.
- La partie la plus difficile a été de ne pas trop travailler, et l'objectif est d'essayer de prendre au moins un jour de repos par semaine.
- Comme il est clair qu'un repos suffisant rend plus intelligent, il est théoriquement important de faire des pauses de temps en temps pour mieux travailler.
Objectif d'indexation d'un milliard de documents
- Le chemin vers l'indexation d'un milliard de documents progresse lentement.
- La difficulté est plus grande que prévu, non pas parce que le logiciel ne peut pas le gérer, mais parce que le rapport signal/bruit du Web n'est pas bon.
- L'une des grandes raisons pour lesquelles le moteur de recherche fonctionne relativement bien tient à ce qu'il n'indexe pas.
- L'index comptait entre 50 et 100 millions de documents il y a un an, a atteint 220 millions lors du dernier crawl, et devrait se situer entre 290 et 300 millions à la fin du prochain cycle de crawl.
Améliorations de l'analyse et de l'exécution des requêtes
- Il reste beaucoup de marge d'amélioration dans l'analyse et l'exécution des requêtes.
- Des travaux préparatoires ont commencé pour remettre en ordre le code concerné avant le début du véritable travail.
- Les grands bonds du projet ont toujours été expérimentaux ; certains sont planifiés, mais ce sont vraisemblablement les éléments non planifiés qui auront le plus d'impact.
Remerciements
- Remerciements à NLnet, FUTO, aux soutiens Patreon, aux défenseurs du projet et aux utilisateurs.
- Sans leur soutien, tout cela aurait été impossible.
L'avis de GN⁺
- Le moteur de recherche Marginalia est un exemple de projet qui a commencé comme une petite expérimentation avant de devenir un projet à plein temps grâce à des améliorations continues et au soutien de la communauté.
- Des améliorations fonctionnelles comme la prise en charge des mots-clés de texte d'ancrage ont constitué des changements importants, améliorant fortement les performances du moteur de recherche.
- Ce projet offre à la communauté open source et aux développeurs des occasions de collaboration et de contribution, tout en participant au progrès des technologies de moteur de recherche.
1 commentaires
Avis sur Hacker News
C&C Tiberian Sunavec prise en charge d’IPv6, ce qui lui a rappelé le vieux web. Cela lui évoque les Searchlores de Fravia, et ce que cela aurait donné si Umberto Eco s’était intéressé à l’informatique. C’est comme découvrir quelque chose d’étonnant dans le labyrinthe-bibliothèque du Nom de la rose, puis le perdre à jamais plus tard.transformers intuition. Alors que Google lui montrait des sites optimisés pour le SEO, principalement Medium, ainsi que des sites tape-à-l’œil au contenu inférieur, les résultats de ce moteur de recherche l’ont impressionné.