- Le plus grand jeu de données d’images au monde parmi ceux publiés gratuitement
→ Dump de données issues du crawl de pages web entre 2014 et 2021
- Toutes les images et tous les textes ont été filtrés avec CLIP d’OpenAI
→ Les paires avec une similarité image/texte inférieure à 0,3 ont été supprimées, puis vérifiées manuellement
- Structure du jeu de données
→ Fichiers Parquet de métadonnées URL + légendes : 50 Go
→ Version complète WebDataset de 10 To, directement exploitable pour l’entraînement avec images 256x256 / légendes / métadonnées
→ 1 To de text/image CLIP embeddings pour 400M d’éléments. Utile pour reconstruire les indices KNN
→ Deux indices KNN de 4 Go facilitant la recherche dans le jeu de données
SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT
Aucun commentaire pour le moment.