Des ressources similaires à celles utilisées par le GPT-3 d’OpenAI
-
books3.tar.gz : 37 Go, extraction en txt d’environ 197 000 livres
-
github.tar.gz : 106 Go, ensemble de plusieurs dépôts GitHub
-
stackexchange_dataset.tar : 34 Go, données de questions-réponses de Stack Exchange
De nombreuses autres ressources sont également disponibles
2 commentaires
C’est un peu abrupt, mais quand je vois ce genre d’archives et de collections de données d’entraînement, je me rends une fois de plus compte que, dans le monde numérique, il n’existe pas de droit à l’oubli.
Voir le fil Twitter ci-dessous pour une explication de cette ressource
https://threadreaderapp.com/thread/1320282149329784833.html