- Jeu de données de base et benchmark destinés à soutenir la recherche sur l’apprentissage vidéo et la perception multimodale
- Capture simultanée de la vue à la première personne "egocentric" via la caméra portable des participants et de multiples vues "exocentric" depuis des caméras disposées autour d’eux
- Les deux points de vue sont complémentaires : l’ego montre ce que le participant voit et entend, tandis que l’exo révèle la scène environnante et le contexte
- Utiliser ensemble ces deux perspectives peut offrir aux modèles d’IA une nouvelle manière d’appréhender des compétences humaines complexes
- Deux années de travail menées par FAIR (Fundamental Artificial Intelligence Research) de Meta, Project Aria et 15 universités partenaires
- Capturé avec l’aide de plus de 800 participants expérimentés aux États-Unis, au Japon, en Colombie, à Singapour, en Inde et au Canada
- Les données, comprenant plus de 1400 heures de vidéo, ainsi que les annotations pour de nouvelles tâches de benchmark, sont publiées en open source
- Ego-Exo4D se concentre sur des activités humaines expertes comme le sport, la musique, la cuisine, la danse ou la réparation de vélos
- Les progrès de l’IA dans la compréhension des compétences humaines à partir de vidéos pourraient ouvrir la voie à de nombreuses applications
- Par exemple, dans un système de RA, une personne portant des lunettes intelligentes pourrait acquérir rapidement une nouvelle compétence grâce aux indications d’un coach IA virtuel
- Ego-Exo4D est le plus grand jeu de données public de vidéos synchronisées dans le temps à la première et à la troisième personne
- Pour constituer ce jeu de données, des experts de divers domaines ont été recrutés, avec la participation de professionnels du monde réel
- Ego-Exo4D n’est pas seulement un jeu de données multi-vues, mais aussi multimodal, et toutes les vidéos ego capturées avec les lunettes Aria de Meta incluent un audio 7 canaux synchronisé dans le temps, une unité de mesure inertielle (IMU), deux caméras monochromes grand angle, etc.
Aucun commentaire pour le moment.