- Anna’s Archive est un méta-moteur de recherche de bibliothèque fantôme en ligne à but non lucratif, géré par des activistes anonymes. Il fournit un accès à diverses ressources bibliographiques
- L’organisation a acquis une collection de 7,5 millions de livres / 350 To d’ouvrages documentaires en chinois (davantage que Library Genesis)
- En échange de la fourniture d’un OCR de haute qualité et de l’extraction de texte pour cette collection, l’entreprise de LLM concernée bénéficiera d’un accès anticipé exclusif pendant un an
- Cette collection provient de Duxiu, une vaste base de données de livres numérisés créée par le SuperStar Digital Library Group, qui étaient fournis sous forme numérique aux universités et aux bibliothèques
- La taille totale des fichiers de la collection est actuellement d’environ 359 To dans sa forme actuelle
- Le texte extrait sera utilisé pour l’entraînement de grands modèles de langage (LLM), et l’Archive estime que, bien que la collection soit en chinois, elle pourrait aussi être utile pour entraîner des LLM en anglais
- L’Archive souhaite utiliser cette collaboration pour offrir aux utilisateurs des fonctions de recherche spécialisées
- Si la partie partenaire est disposée à partager l’intégralité du code du pipeline, l’Archive est ouverte à une prolongation de la période d’accès exclusif
1 commentaires
Commentaires Hacker News