Collection de données textuelles pour l'entraînement de l'IA

(the-eye.eu)

15 points par xguru 2020-10-26 | 2 commentaires | Partager sur WhatsApp

Des ressources similaires à celles utilisées par le GPT-3 d’OpenAI

books3.tar.gz : 37 Go, extraction en txt d’environ 197 000 livres
github.tar.gz : 106 Go, ensemble de plusieurs dépôts GitHub
stackexchange_dataset.tar : 34 Go, données de questions-réponses de Stack Exchange

De nombreuses autres ressources sont également disponibles

2 commentaires

ffdd270 2020-10-27

C’est un peu abrupt, mais quand je vois ce genre d’archives et de collections de données d’entraînement, je me rends une fois de plus compte que, dans le monde numérique, il n’existe pas de droit à l’oubli.

xguru 2020-10-26

Voir le fil Twitter ci-dessous pour une explication de cette ressource

https://threadreaderapp.com/thread/1320282149329784833.html

Collection de données textuelles pour l'entraînement de l'IA

À lire aussi

2 commentaires