Meta présente Segment Anything Model 2
(ai.meta.com)Présentation de Meta Segment Anything Model 2 (SAM 2)
Principales fonctionnalités
-
Segmentation d’objets dans toutes les vidéos et images
- SAM 2 est le premier modèle unifié capable de segmenter des objets dans les images et les vidéos
- Il permet de sélectionner des objets dans une image ou une frame vidéo à partir d’un clic, d’une boîte ou d’un masque en entrée
-
Sélection et ajustement d’objets entre les frames vidéo
- SAM 2 permet de sélectionner un ou plusieurs objets dans des frames vidéo
- Des prompts supplémentaires permettent d’affiner finement les prédictions du modèle
-
Performances de segmentation solides, même sur des vidéos inédites
- SAM 2 offre de solides performances zero-shot même sur des objets, images et vidéos qu’il n’a pas vus pendant l’entraînement
- Il peut être utilisé dans diverses applications du monde réel
-
Interaction et résultats en temps réel
- SAM 2 rend possibles des applications interactives en temps réel grâce à l’inférence en streaming
-
Performances de pointe en segmentation d’objets
- SAM 2 surpasse les meilleurs modèles en segmentation d’objets sur vidéo et image
Points forts
- Meilleures performances que SAM en segmentation d’images
- De meilleures performances que les modèles existants de segmentation d’objets vidéo, en particulier sur le suivi partiel
- Moins de temps d’interaction nécessaire que les méthodes existantes de segmentation vidéo interactive
Essayer par vous-même
- Il est possible de suivre un objet à partir d’un simple clic sur une frame d’une vidéo et de créer des effets amusants
- Essayer la démo
Architecture du modèle
- Conception de Meta Segment Anything Model 2
- Le modèle SAM 2 est étendu au domaine vidéo par l’ajout d’un module de mémoire par session
- Ce module capture des informations sur les objets cibles d’une vidéo afin de pouvoir les suivre dans toutes les frames, même lorsqu’ils deviennent temporairement invisibles
- Il prend également en charge la modification des prédictions de masque à partir de prompts supplémentaires
- L’architecture en streaming de SAM 2 traite les frames vidéo une par une, ce qui lui permet de se généraliser naturellement au domaine vidéo
Segment Anything Video Dataset
-
Un dataset de segmentation vidéo vaste et diversifié
- SAM 2 a été entraîné sur un ensemble vaste et diversifié de vidéos et de masklets (masques d’objets au fil du temps)
- Les données d’entraînement incluent le dataset open source SA-V
-
Points forts
- Environ 600 000 masklets collectés à partir d’environ 51 000 vidéos
- Des scénarios réels géographiquement diversifiés couvrant 47 pays
- Des annotations incluant objets complets, parties d’objets et cas d’occlusion difficiles
Publication de la recherche
-
Innovation ouverte
- Les modèles Segment Anything 2 préentraînés, le dataset SA-V, la démo et le code sont publiés afin que la communauté de recherche puisse s’appuyer sur ce travail
-
Points forts
- Transparence sur les données d’entraînement de SAM 2
- Priorité donnée à la diversité géographique du dataset SA-V pour mieux représenter le monde réel
- Réalisation d’une évaluation de l’équité de SAM 2
Applications potentielles du modèle
-
Sorties extensibles
- Les sorties de segmentation d’objets vidéo de SAM 2 peuvent servir d’entrées à d’autres systèmes d’IA, comme les modèles modernes de génération vidéo
-
Entrées extensibles
- SAM 2 peut accepter d’autres types de prompts en entrée, ouvrant la voie à des façons créatives d’interagir avec des objets dans des vidéos en temps réel ou en direct
Explorer d’autres ressources
Le récapitulatif de GN⁺
- SAM 2 est un modèle unifié de segmentation d’objets pour les images et les vidéos, offrant une interaction en temps réel et de solides performances zero-shot
- Il est conçu pour être utilisé dans divers scénarios réels et s’accompagne d’un dataset et de code publiés pour la communauté de recherche
- Il surpasse les modèles existants pour le suivi et la segmentation d’objets vidéo, avec une haute précision malgré un temps d’interaction réduit
- SAM 2 peut être combiné à d’autres systèmes d’IA, comme les modèles de génération vidéo, pour permettre de nouvelles expériences
Aucun commentaire pour le moment.