7 points par xguru 2023-12-19 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Jeu de données de base et benchmark destinés à soutenir la recherche sur l’apprentissage vidéo et la perception multimodale
  • Capture simultanée de la vue à la première personne "egocentric" via la caméra portable des participants et de multiples vues "exocentric" depuis des caméras disposées autour d’eux
  • Les deux points de vue sont complémentaires : l’ego montre ce que le participant voit et entend, tandis que l’exo révèle la scène environnante et le contexte
    • Utiliser ensemble ces deux perspectives peut offrir aux modèles d’IA une nouvelle manière d’appréhender des compétences humaines complexes
  • Deux années de travail menées par FAIR (Fundamental Artificial Intelligence Research) de Meta, Project Aria et 15 universités partenaires
    • Capturé avec l’aide de plus de 800 participants expérimentés aux États-Unis, au Japon, en Colombie, à Singapour, en Inde et au Canada
  • Les données, comprenant plus de 1400 heures de vidéo, ainsi que les annotations pour de nouvelles tâches de benchmark, sont publiées en open source
  • Ego-Exo4D se concentre sur des activités humaines expertes comme le sport, la musique, la cuisine, la danse ou la réparation de vélos
    • Les progrès de l’IA dans la compréhension des compétences humaines à partir de vidéos pourraient ouvrir la voie à de nombreuses applications
    • Par exemple, dans un système de RA, une personne portant des lunettes intelligentes pourrait acquérir rapidement une nouvelle compétence grâce aux indications d’un coach IA virtuel
  • Ego-Exo4D est le plus grand jeu de données public de vidéos synchronisées dans le temps à la première et à la troisième personne
    • Pour constituer ce jeu de données, des experts de divers domaines ont été recrutés, avec la participation de professionnels du monde réel
    • Ego-Exo4D n’est pas seulement un jeu de données multi-vues, mais aussi multimodal, et toutes les vidéos ego capturées avec les lunettes Aria de Meta incluent un audio 7 canaux synchronisé dans le temps, une unité de mesure inertielle (IMU), deux caméras monochromes grand angle, etc.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.