12 points par xguru 2021-09-15 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Le plus grand jeu de données d’images au monde parmi ceux publiés gratuitement

→ Dump de données issues du crawl de pages web entre 2014 et 2021

  • Toutes les images et tous les textes ont été filtrés avec CLIP d’OpenAI

→ Les paires avec une similarité image/texte inférieure à 0,3 ont été supprimées, puis vérifiées manuellement

  • Structure du jeu de données

→ Fichiers Parquet de métadonnées URL + légendes : 50 Go

→ Version complète WebDataset de 10 To, directement exploitable pour l’entraînement avec images 256x256 / légendes / métadonnées

→ 1 To de text/image CLIP embeddings pour 400M d’éléments. Utile pour reconstruire les indices KNN

→ Deux indices KNN de 4 Go facilitant la recherche dans le jeu de données

SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.