15 points par xguru 2020-10-26 | 2 commentaires | Partager sur WhatsApp

Des ressources similaires à celles utilisées par le GPT-3 d’OpenAI

  • books3.tar.gz : 37 Go, extraction en txt d’environ 197 000 livres

  • github.tar.gz : 106 Go, ensemble de plusieurs dépôts GitHub

  • stackexchange_dataset.tar : 34 Go, données de questions-réponses de Stack Exchange

De nombreuses autres ressources sont également disponibles

2 commentaires

 
ffdd270 2020-10-27

C’est un peu abrupt, mais quand je vois ce genre d’archives et de collections de données d’entraînement, je me rends une fois de plus compte que, dans le monde numérique, il n’existe pas de droit à l’oubli.

 
xguru 2020-10-26

Voir le fil Twitter ci-dessous pour une explication de cette ressource

https://threadreaderapp.com/thread/1320282149329784833.html