- Segment Anything Model 2 est un modèle conçu pour résoudre le problème de la segmentation visuelle pilotée par prompt dans les images et les vidéos
- Il étend l’approche à la vidéo en considérant une image comme une vidéo à image unique
- Il utilise une architecture Transformer simple avec une mémoire en streaming pour le traitement vidéo en temps réel
- Un moteur de données a été construit pour améliorer le modèle et les données via l’interaction utilisateur, ce qui a permis de collecter le jeu de données SA-V
- Il offre de solides performances sur diverses tâches et dans différents domaines visuels
- Le jeu de données Segment Anything Video (SA-V) est également publié
- Il se compose de 50 583 vidéos variées et de 642 036 masques de segmentation spatio-temporelle de haute qualité (Masklet)
- Licence CC by 4.0
2 commentaires
Segment Anything Model (SAM) : le modèle d’IA de Meta qui extrait n’importe quel objet d’une image
SAM.cpp - implémentation en pur C/C++ du Segment Anything Model de Meta
Avis sur Hacker News
Intéressé par l’amélioration du mIoU et par une vitesse de traitement des images multipliée par 6
L’équipe de Segment Anything a publié le modèle SAM 2
J’ai déjà travaillé avec SAM 1
J’aimerais entraîner un modèle pour classer des frames vidéo et retrouver des frames spécifiques
Grand fan de la fonction de perte de SAM
La démo web est très propre
Le premier modèle SAM a été le plus utile
La démo de recherche n’est pas disponible dans l’Illinois ni au Texas
Des inquiétudes existent concernant un usage militaire
C’est impressionnant