5 points par GN⁺ 2024-07-30 | 2 commentaires | Partager sur WhatsApp
  • Segment Anything Model 2 est un modèle conçu pour résoudre le problème de la segmentation visuelle pilotée par prompt dans les images et les vidéos
    • Il étend l’approche à la vidéo en considérant une image comme une vidéo à image unique
    • Il utilise une architecture Transformer simple avec une mémoire en streaming pour le traitement vidéo en temps réel
    • Un moteur de données a été construit pour améliorer le modèle et les données via l’interaction utilisateur, ce qui a permis de collecter le jeu de données SA-V
  • Il offre de solides performances sur diverses tâches et dans différents domaines visuels
  • Le jeu de données Segment Anything Video (SA-V) est également publié
    • Il se compose de 50 583 vidéos variées et de 642 036 masques de segmentation spatio-temporelle de haute qualité (Masklet)
    • Licence CC by 4.0

2 commentaires

 
GN⁺ 2024-07-30
Avis sur Hacker News
  • Intéressé par l’amélioration du mIoU et par une vitesse de traitement des images multipliée par 6

    • Le gain de vitesse vient surtout d’un encodeur plus efficace
    • L’avantage peut être limité pour plusieurs segmentations de la même image
    • Une comparaison avec le SAM d’origine est nécessaire
  • L’équipe de Segment Anything a publié le modèle SAM 2

    • Il s’agit du premier modèle unifié pour la segmentation d’objets en temps réel
    • Le code, les modèles, le jeu de données, l’article de recherche et la démo ont été rendus publics
    • Hâte de voir ce que les utilisateurs vont créer
  • J’ai déjà travaillé avec SAM 1

    • Résumé de l’article sur SAM 2 :
      • Entraîné pendant 108 heures sur 256 GPU A100
      • Le coût d’entraînement est relativement faible, autour de $50k
      • Le nouveau jeu de données SA-V est composé de 50k vidéos
      • Utilise une méthode de bootstrap d’annotation en 3 étapes
      • Une fonction d’attention mémoire a été ajoutée
  • J’aimerais entraîner un modèle pour classer des frames vidéo et retrouver des frames spécifiques

    • Je me demande si SAM-2 peut servir de modèle de base
  • Grand fan de la fonction de perte de SAM

    • Merci pour cela
  • La démo web est très propre

    • Quand on sélectionne chaque chaussure comme objet distinct, le modèle les segmente même lorsqu’elles se chevauchent
  • Le premier modèle SAM a été le plus utile

    • J’ai hâte d’essayer SAM2
  • La démo de recherche n’est pas disponible dans l’Illinois ni au Texas

    • Je me demande pourquoi
  • Des inquiétudes existent concernant un usage militaire

  • C’est impressionnant