Il y a une question sur la raison d'utiliser le modèle de mixbread.
Il y a une question sur le gain d'efficacité en binarisant les embeddings et en utilisant la distance de Hamming.
Une question est posée sur le choix de milvus plutôt qu'un autre magasin vectoriel.
Une question est posée sur l'automatisation hebdomadaire des métadonnées.
L'avis des utilisateurs sur la recherche de « transformer au niveau des octets » était positif, mais les articles les plus récents n'ont pas été trouvés.
Si l'on souhaite plus de densité de résultats, on peut envisager une option UI qui compresse les abstracts pour en afficher davantage d'un coup d'œil.
Lorsqu'on envisage d'étendre au-delà d'arXiv, les grands éditeurs imposent le retrait des abstracts sur OpenAlex, etc., ce qui peut rendre la revue de littérature difficile.
Une question est soulevée sur le fait d'avoir vérifié d'autres outils comme undermind.ai, scite.ai, elicit.org.
Il faut réfléchir à ce que pourrait contenir un workflow produit dédié à la revue de littérature, en plus de la recherche.
Historiquement, la recherche CPU « brute » en temps réel était possible avec des banques de données vectorielles comme gensim/doc2vec.
Il existe des idées de bons autres domaines où la recherche sémantique pourrait être utile.
Recherche en publicité en ligne : embarquer puis indexer des annonces vidéo et image afin de trouver de l'inspiration marketing.
Recherche multi-plateformes e-commerce : trouver des produits sur Sephora, zara, h&m, etc.
Un avis indique que l'ajout d'un lien « papers similaires » sur chaque article serait utile pour découvrir des sujets.
Une question est posée sur les avantages de la recherche sémantique par rapport à la recherche textuelle.
Une question est posée sur l'existence d'un benchmark pour voir s'il y a amélioration de la recherche.
Une question est posée sur le fait que cela ressemble à Semantic Scholar de l'Allen Institute for AI.
Il y a une proposition d'ajouter un client de moteur de recherche au backend de paper-qa.
Une suggestion est d'essayer de crawler et de lier scihib.
Un commentaire sur un problème d'encodage.
Rechercher « UPC High-Performance Computing Benchmark » renvoie des articles dont les noms d'auteurs sont buggués.
1 commentaires
Commentaires Hacker News