- Recherche de scènes spécifiques dans une vidéo à l’aide du réseau neuronal CLIP d’OpenAI
→ recherche d’images présentes dans la vidéo, comme "Road Works", "People crossing the street" ou "Fire truck"
Fonctionnement
-
Télécharger la vidéo YouTube
-
Extraire chaque frame
-
Encoder toutes les frames avec CLIP
-
Encoder la requête en langage naturel avec CLIP
-
Trouver une scène spécifique à partir de la requête en langage naturel
- Exécutable directement sous forme de notebook dans Google Colab
1 commentaires
Dans les commentaires, il y a aussi une recherche d’images Unsplash faite avec CLIP par le même développeur ; ça a l’air très utile aussi.
https://github.com/haltakov/natural-language-image-search
Google Colab : https://colab.research.google.com/github/haltakov/…
Il permet de trouver, parmi les 2 millions de photos mises en ligne sur Unsplash, celles correspondant au contenu souhaité.