LAION-400M - un jeu de données de 400 millions de paires image-texte

(laion.ai)

12 points par xguru 2021-09-15 | Aucun commentaire pour le moment. | Partager sur WhatsApp

→ Dump de données issues du crawl de pages web entre 2014 et 2021

→ Les paires avec une similarité image/texte inférieure à 0,3 ont été supprimées, puis vérifiées manuellement

→ Fichiers Parquet de métadonnées URL + légendes : 50 Go

→ Version complète WebDataset de 10 To, directement exploitable pour l’entraînement avec images 256x256 / légendes / métadonnées

→ 1 To de text/image CLIP embeddings pour 400M d’éléments. Utile pour reconstruire les indices KNN

→ Deux indices KNN de 4 Go facilitant la recherche dans le jeu de données

À lire aussi