2 points par GN⁺ 2023-11-06 | 1 commentaires | Partager sur WhatsApp
  • Anna’s Archive est un méta-moteur de recherche de bibliothèque fantôme en ligne à but non lucratif, géré par des activistes anonymes. Il fournit un accès à diverses ressources bibliographiques
  • L’organisation a acquis une collection de 7,5 millions de livres / 350 To d’ouvrages documentaires en chinois (davantage que Library Genesis)
  • En échange de la fourniture d’un OCR de haute qualité et de l’extraction de texte pour cette collection, l’entreprise de LLM concernée bénéficiera d’un accès anticipé exclusif pendant un an
  • Cette collection provient de Duxiu, une vaste base de données de livres numérisés créée par le SuperStar Digital Library Group, qui étaient fournis sous forme numérique aux universités et aux bibliothèques
  • La taille totale des fichiers de la collection est actuellement d’environ 359 To dans sa forme actuelle
  • Le texte extrait sera utilisé pour l’entraînement de grands modèles de langage (LLM), et l’Archive estime que, bien que la collection soit en chinois, elle pourrait aussi être utile pour entraîner des LLM en anglais
  • L’Archive souhaite utiliser cette collaboration pour offrir aux utilisateurs des fonctions de recherche spécialisées
  • Si la partie partenaire est disposée à partager l’intégralité du code du pipeline, l’Archive est ouverte à une prolongation de la période d’accès exclusif

1 commentaires

 
GN⁺ 2023-11-06
Commentaires Hacker News
  • Cette collection, qui aurait commencé vers 2015, comprend environ 4 millions de livres, dont beaucoup sont des doublons.
  • La collection provient d’une entreprise appelée DuXiu, qui a scanné les collections de bibliothèques chinoises en collaboration avec elles depuis le début des années 2000.
  • Cette collection mêle des manuels occidentaux traduits, de la propagande politique, ainsi que des ouvrages de littérature et d’histoire publiés avant une censure extrême.
  • Les entreprises technologiques chinoises peuvent accéder à cette collection, mais pourraient ne pas l’utiliser en raison des risques liés au droit d’auteur et à la politique.
  • La personne qui gère le site est considérée comme intelligente mais imprudente, et des inquiétudes ont été soulevées quant à une éventuelle responsabilité juridique.
  • DuXiu est très apprécié comme ressource, et l’on espère qu’il deviendra entièrement consultable d’ici un an.
  • Le fait que tous les livres chinois soient centralisés est considéré comme favorable à l’entraînement de l’IA.
  • Le fait que cette collection soit 40 fois plus grande que books3 soulève des questions sur le droit d’auteur et sur les possibilités de recherche académique hors du monde anglophone.
  • Il existe des spéculations sur l’efficacité de la tokenisation en chinois, une langue à forte densité d’information.
  • La question a été posée de savoir si les Language Models (LLMs) peuvent encoder des connaissances indépendamment de la langue et de la langue de la requête.
  • On s’attend à ce qu’un grand groupe chinois puisse surenchérir sur OpenAI pour obtenir cette collection afin de rester compétitif.
  • Les LLMs peuvent jouer le rôle d’interface et faciliter l’accès aux informations en chinois.
  • Dans la culture chinoise, la réaction face à la copie est perçue différemment, avec une tendance à la voir souvent comme une forme de respect.