Recherche Google dans les vidéos
(dev.ctrlx.video)Bonjour
J’ai déjà développé et exploité une application de suivi sportif appelée PliQ, et je suis actuellement un développeur très intéressé par l’intersection entre les LLM, le multimodal, LangChain, en particulier les agents LLM, et la vidéo.
Le projet que je voudrais vous présenter est un moteur de recherche qui permet de rechercher, par texte ou par image, la scène ou le clip vidéo souhaité à l’intérieur d’une vidéo importée.
Aujourd’hui, la plupart des vidéos sont encore manipulées par des humains, mais je suis parti de l’idée que, s’il existait une API pour traiter la vidéo, un agent IA pourrait peut-être monter ou extraire directement des séquences lui-même. C’est de cette réflexion qu’est né ce projet.
Pour que vous puissiez l’essayer facilement, j’ai mis en ligne dans le Playground des vidéos YouTube aléatoires.
Je vous serais très reconnaissant de me faire part de vos retours sur l’utilisation.
P.-S. : si vous souhaitez téléverser vos propres vidéos, ou si vous avez besoin de résultats sous forme d’API, n’hésitez pas à me contacter à tout moment.
3 commentaires
Depuis longtemps, parmi les logiciels de gestion de vidéos personnelles, il y en a eu quelques-uns qui extrayaient plusieurs scènes d’une vidéo pour les classer via des CNN plus traditionnels (?) et permettre la recherche...
Mais là, on dirait que ça fonctionne à un niveau totalement différent par rapport à ce genre de méthode.
Après quelques recherches, j’ai l’impression qu’environ 70 à 80 % des résultats correspondent vraiment aux scènes que je cherchais. Par exemple, en recherchant
A scene where something explodes, il retrouve surtout très bien des scènes avec quelque chose qui brille dans les films Spider-Man.Bien sûr, il identifie aussi comme des explosions des scènes où les plans changent rapidement... mais malgré ça, c’est vraiment impressionnant. Quand j’ai mis une image avec le logo Netflix, il a retrouvé non seulement Netflix, mais aussi toutes les images où un logo d’entreprise quelconque apparaissait.
(Même si c’est quand même un peu dommage qu’il ne prenne pas en charge le coréen.)
J’ai l’impression que cette fonctionnalité fonctionnerait aussi très bien sur les images ; dans ce cas, le jour où chacun pourra rechercher par IA dans l’ensemble de son propre album, y compris les vidéos, ne semble plus très loin.
Ou bien, lorsqu’on monte un live ou une vidéo très longue, on pourrait, sans avoir à tout regarder, utiliser l’IA pour trouver les temps forts ou précisément les passages nécessaires et les récupérer...
Du point de vue des entreprises, on peut imaginer qu’une fonctionnalité de recherche sur YouTube en langage naturel + par scène puisse voir le jour.
En tout cas, merci d’avoir présenté ce superbe projet.
Cela semble un peu différent de la direction que vous prenez actuellement, mais j’aimerais qu’un projet comme celui-ci soit un jour publié en open source pour permettre le self-hosting.
Bonjour kuroneko, merci d’avoir pris le temps de vous amuser avec le projet.
« Le jour où chacun pourra rechercher avec l’IA dans l’ensemble de son propre album, y compris les vidéos »
-> Ça m’a tout de suite rappelé quand je fouillais dans mes albums pour retrouver une photo…
« Monter des vidéos très longues, puis utiliser l’IA pour trouver et extraire les moments forts ou les passages nécessaires »
-> Exactement. Je m’intéresse à la manière dont l’IA peut réduire le coût marginal de la production vidéo.
Merci encore sincèrement de m’avoir transmis un retour d’expérience aussi détaillé.
Je vais le relire attentivement, en extraire les éléments susceptibles d’inspirer le projet, et continuer à les appliquer.