- Meta présente le modèle Video Joint Embedding Predictive Architecture (V-JEPA), une étape importante vers l’intelligence machine fondée sur une compréhension plus réaliste du monde.
- Ce premier exemple de modèle de monde physique excelle à détecter et à comprendre les interactions détaillées entre objets.
- Dans un esprit d’open science responsable, le modèle est publié sous licence Creative Commons NonCommercial afin que les chercheurs puissent l’explorer davantage.
Video JEPA
- V-JEPA est un modèle non génératif qui apprend à prédire des parties manquantes ou masquées de vidéos dans un espace de représentation abstrait.
- Ce modèle dispose d’une flexibilité lui permettant de rejeter les informations impossibles à prédire, améliorant l’efficacité d’entraînement et d’échantillonnage de 1,5 à 6 fois.
- V-JEPA n’est préentraîné qu’avec des données non étiquetées, et les étiquettes ne sont utilisées qu’après le pré-entraînement pour appliquer le modèle à des tâches spécifiques.
Méthodologie de masquage
- V-JEPA n’est pas entraîné pour comprendre un type d’action particulier ; il utilise l’auto-supervision sur des vidéos variées pour apprendre plusieurs choses sur la manière dont le monde fonctionne.
- La stratégie de masquage ne consiste pas à échantillonner des patches aléatoires par ici et par là sans bloquer de grandes zones ; elle masque plutôt des parties de la vidéo à la fois dans l’espace et dans le temps, afin que le modèle comprenne et apprenne la scène.
Prédiction efficace
- Prédire dans un espace de représentation abstrait permet au modèle de se concentrer sur l’information conceptuelle de haute dimension contenue dans la vidéo, sans se soucier des détails qui ne sont généralement pas importants pour les tâches aval.
- V-JEPA est le premier modèle vidéo à montrer d’excellentes performances en évaluation gelée ; il entraîne de manière efficace et rapide des couches spécialisées ou de petits réseaux pour apprendre de nouvelles compétences sans retoucher l’encodeur et le prédicteur pré-entraînés en auto-supervision.
Pistes pour la recherche future
- Le « V » signifie vidéo, mais le modèle V-JEPA actuel prend en compte uniquement le contenu visuel.
- La prochaine étape envisagée est une approche plus multimodale intégrant l’audio en plus du contenu visuel.
- V-JEPA excelle à distinguer de fines interactions entre objets et à reconnaître les interactions détaillées entre objets qui se produisent au fil du temps.
En route vers l’AMI
- Jusqu’à présent, les travaux liés à V-JEPA portent principalement sur la perception : comprendre le contenu de flux vidéo variés pour obtenir un certain contexte sur le monde environnant.
- La prochaine étape consiste à montrer comment utiliser ce prédicteur ou ce modèle de monde pour la planification ou la prise de décision séquentielle.
- V-JEPA est un modèle de recherche, et les futures applications restent à explorer. Par exemple, le contexte fourni par V-JEPA pourrait être utile pour construire une assistance IA contextuelle pour de vrais travaux d’IA et pour de futures lunettes AR.
- Convaincus de la valeur de la science ouverte responsable, les chercheurs ont publié le modèle V-JEPA sous licence CC BY-NC afin de permettre à d’autres de poursuivre ce travail.
1 commentaires
Même si OpenAI Sora a fait la même chose, l’IA vidéo progresse soudainement de façon incroyable.
Comme les modèles linguistiques se sont développés, un jour ChatGPT est apparu, et il serait amusant qu’un tel moment se produise aussi pour l’IA vidéo.