2 points par GN⁺ 2024-08-02 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Présentation de Meta Segment Anything Model 2 (SAM 2)

Principales fonctionnalités

  • Segmentation d’objets dans toutes les vidéos et images

    • SAM 2 est le premier modèle unifié capable de segmenter des objets dans les images et les vidéos
    • Il permet de sélectionner des objets dans une image ou une frame vidéo à partir d’un clic, d’une boîte ou d’un masque en entrée
  • Sélection et ajustement d’objets entre les frames vidéo

    • SAM 2 permet de sélectionner un ou plusieurs objets dans des frames vidéo
    • Des prompts supplémentaires permettent d’affiner finement les prédictions du modèle
  • Performances de segmentation solides, même sur des vidéos inédites

    • SAM 2 offre de solides performances zero-shot même sur des objets, images et vidéos qu’il n’a pas vus pendant l’entraînement
    • Il peut être utilisé dans diverses applications du monde réel
  • Interaction et résultats en temps réel

    • SAM 2 rend possibles des applications interactives en temps réel grâce à l’inférence en streaming
  • Performances de pointe en segmentation d’objets

    • SAM 2 surpasse les meilleurs modèles en segmentation d’objets sur vidéo et image

Points forts

  • Meilleures performances que SAM en segmentation d’images
  • De meilleures performances que les modèles existants de segmentation d’objets vidéo, en particulier sur le suivi partiel
  • Moins de temps d’interaction nécessaire que les méthodes existantes de segmentation vidéo interactive

Essayer par vous-même

  • Il est possible de suivre un objet à partir d’un simple clic sur une frame d’une vidéo et de créer des effets amusants
  • Essayer la démo

Architecture du modèle

  • Conception de Meta Segment Anything Model 2
    • Le modèle SAM 2 est étendu au domaine vidéo par l’ajout d’un module de mémoire par session
    • Ce module capture des informations sur les objets cibles d’une vidéo afin de pouvoir les suivre dans toutes les frames, même lorsqu’ils deviennent temporairement invisibles
    • Il prend également en charge la modification des prédictions de masque à partir de prompts supplémentaires
    • L’architecture en streaming de SAM 2 traite les frames vidéo une par une, ce qui lui permet de se généraliser naturellement au domaine vidéo

Segment Anything Video Dataset

  • Un dataset de segmentation vidéo vaste et diversifié

    • SAM 2 a été entraîné sur un ensemble vaste et diversifié de vidéos et de masklets (masques d’objets au fil du temps)
    • Les données d’entraînement incluent le dataset open source SA-V
  • Points forts

    • Environ 600 000 masklets collectés à partir d’environ 51 000 vidéos
    • Des scénarios réels géographiquement diversifiés couvrant 47 pays
    • Des annotations incluant objets complets, parties d’objets et cas d’occlusion difficiles

Publication de la recherche

  • Innovation ouverte

    • Les modèles Segment Anything 2 préentraînés, le dataset SA-V, la démo et le code sont publiés afin que la communauté de recherche puisse s’appuyer sur ce travail
  • Points forts

    • Transparence sur les données d’entraînement de SAM 2
    • Priorité donnée à la diversité géographique du dataset SA-V pour mieux représenter le monde réel
    • Réalisation d’une évaluation de l’équité de SAM 2

Applications potentielles du modèle

  • Sorties extensibles

    • Les sorties de segmentation d’objets vidéo de SAM 2 peuvent servir d’entrées à d’autres systèmes d’IA, comme les modèles modernes de génération vidéo
  • Entrées extensibles

    • SAM 2 peut accepter d’autres types de prompts en entrée, ouvrant la voie à des façons créatives d’interagir avec des objets dans des vidéos en temps réel ou en direct

Explorer d’autres ressources

Le récapitulatif de GN⁺

  • SAM 2 est un modèle unifié de segmentation d’objets pour les images et les vidéos, offrant une interaction en temps réel et de solides performances zero-shot
  • Il est conçu pour être utilisé dans divers scénarios réels et s’accompagne d’un dataset et de code publiés pour la communauté de recherche
  • Il surpasse les modèles existants pour le suivi et la segmentation d’objets vidéo, avec une haute précision malgré un temps d’interaction réduit
  • SAM 2 peut être combiné à d’autres systèmes d’IA, comme les modèles de génération vidéo, pour permettre de nouvelles expériences

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.