-
Le chercheur Carl Malamud a publié un index n-gram extrait avec SpaCy de 107 233 728 revues, y compris des articles payants
-
Comme il s’agit d’un index contenant non pas le texte intégral mais uniquement des extraits de phrases d’un à cinq mots, il contourne les restrictions liées au droit d’auteur
-
Mis gratuitement à disposition sur une archive web afin de pouvoir être utilisé dans divers domaines de recherche
→ Ex.) combien de fois une substance chimique donnée a-t-elle été utilisée dans des articles scientifiques ?
- Composé de 3 tables
→ 350 milliards de n-grammes et d’identifiants de revues
→ 19,7 milliards de mots-clés et d’identifiants de revues
→ identifiants de revues et métadonnées : titre de l’article, auteur, DOI (identifiant unique d’un article scientifique)
- Le catalogue représente 5 To de fichiers compressés, soit 38 To une fois décompressé
1 commentaires
L’article de présentation de Nature
En ne publiant que l’index et non les textes intégraux, ils ont contourné de manière assez originale la question du droit d’auteur.
Comme le souligne aussi l’article de Nature, la seule vraie question semble être de savoir comment Carl s’est procuré les articles payants à l’origine ; en revanche, l’utilisation de cet index lui-même pour la recherche ne semble pas poser de problème.
En voyant ça, j’ai pensé à Aaron Swartz… et c’est d’ailleurs mentionné en bas de la documentation.
Regardez aussi la vidéo du discours que Carl Malamud a donné au Aaron Swartz Memorial.