1 commentaires

 
GN⁺ 2024-12-26
Commentaires Hacker News
  • Il y a une question sur la raison d'utiliser le modèle de mixbread.
  • Il y a une question sur le gain d'efficacité en binarisant les embeddings et en utilisant la distance de Hamming.
  • Une question est posée sur le choix de milvus plutôt qu'un autre magasin vectoriel.
  • Une question est posée sur l'automatisation hebdomadaire des métadonnées.
  • L'avis des utilisateurs sur la recherche de « transformer au niveau des octets » était positif, mais les articles les plus récents n'ont pas été trouvés.
    • Si l'on souhaite plus de densité de résultats, on peut envisager une option UI qui compresse les abstracts pour en afficher davantage d'un coup d'œil.
  • Lorsqu'on envisage d'étendre au-delà d'arXiv, les grands éditeurs imposent le retrait des abstracts sur OpenAlex, etc., ce qui peut rendre la revue de littérature difficile.
  • Une question est soulevée sur le fait d'avoir vérifié d'autres outils comme undermind.ai, scite.ai, elicit.org.
  • Il faut réfléchir à ce que pourrait contenir un workflow produit dédié à la revue de littérature, en plus de la recherche.
  • Historiquement, la recherche CPU « brute » en temps réel était possible avec des banques de données vectorielles comme gensim/doc2vec.
  • Il existe des idées de bons autres domaines où la recherche sémantique pourrait être utile.
    • Recherche en publicité en ligne : embarquer puis indexer des annonces vidéo et image afin de trouver de l'inspiration marketing.
    • Recherche multi-plateformes e-commerce : trouver des produits sur Sephora, zara, h&m, etc.
  • Un avis indique que l'ajout d'un lien « papers similaires » sur chaque article serait utile pour découvrir des sujets.
  • Une question est posée sur les avantages de la recherche sémantique par rapport à la recherche textuelle.
    • Une question est posée sur l'existence d'un benchmark pour voir s'il y a amélioration de la recherche.
  • Une question est posée sur le fait que cela ressemble à Semantic Scholar de l'Allen Institute for AI.
  • Il y a une proposition d'ajouter un client de moteur de recherche au backend de paper-qa.
  • Une suggestion est d'essayer de crawler et de lier scihib.
  • Un commentaire sur un problème d'encodage.
    • Rechercher « UPC High-Performance Computing Benchmark » renvoie des articles dont les noms d'auteurs sont buggués.