SAM 2 : Segment Anything pour les images et les vidéos

(github.com/facebookresearch)

5 points par GN⁺ 2024-07-30 | 2 commentaires | Partager sur WhatsApp

Segment Anything Model 2 est un modèle conçu pour résoudre le problème de la segmentation visuelle pilotée par prompt dans les images et les vidéos
- Il étend l’approche à la vidéo en considérant une image comme une vidéo à image unique
- Il utilise une architecture Transformer simple avec une mémoire en streaming pour le traitement vidéo en temps réel
- Un moteur de données a été construit pour améliorer le modèle et les données via l’interaction utilisateur, ce qui a permis de collecter le jeu de données SA-V
Il offre de solides performances sur diverses tâches et dans différents domaines visuels
Le jeu de données Segment Anything Video (SA-V) est également publié
- Il se compose de 50 583 vidéos variées et de 642 036 masques de segmentation spatio-temporelle de haute qualité (Masklet)
- Licence CC by 4.0

2 commentaires

xguru 2024-07-31

Segment Anything Model (SAM) : le modèle d’IA de Meta qui extrait n’importe quel objet d’une image
SAM.cpp - implémentation en pur C/C++ du Segment Anything Model de Meta

GN⁺ 2024-07-30

Avis sur Hacker News

Intéressé par l’amélioration du mIoU et par une vitesse de traitement des images multipliée par 6
- Le gain de vitesse vient surtout d’un encodeur plus efficace
- L’avantage peut être limité pour plusieurs segmentations de la même image
- Une comparaison avec le SAM d’origine est nécessaire
L’équipe de Segment Anything a publié le modèle SAM 2
- Il s’agit du premier modèle unifié pour la segmentation d’objets en temps réel
- Le code, les modèles, le jeu de données, l’article de recherche et la démo ont été rendus publics
- Hâte de voir ce que les utilisateurs vont créer
J’ai déjà travaillé avec SAM 1
- Résumé de l’article sur SAM 2 :
  - Entraîné pendant 108 heures sur 256 GPU A100
  - Le coût d’entraînement est relativement faible, autour de $50k
  - Le nouveau jeu de données SA-V est composé de 50k vidéos
  - Utilise une méthode de bootstrap d’annotation en 3 étapes
  - Une fonction d’attention mémoire a été ajoutée
J’aimerais entraîner un modèle pour classer des frames vidéo et retrouver des frames spécifiques
- Je me demande si SAM-2 peut servir de modèle de base
Grand fan de la fonction de perte de SAM
- Merci pour cela
La démo web est très propre
- Quand on sélectionne chaque chaussure comme objet distinct, le modèle les segmente même lorsqu’elles se chevauchent
Le premier modèle SAM a été le plus utile
- J’ai hâte d’essayer SAM2
La démo de recherche n’est pas disponible dans l’Illinois ni au Texas
- Je me demande pourquoi
Des inquiétudes existent concernant un usage militaire
C’est impressionnant

SAM 2 : Segment Anything pour les images et les vidéos

À lire aussi

2 commentaires

Avis sur Hacker News