Meta dévoile Segment Anything Model 2

(ai.meta.com)

2 points par GN⁺ 2024-08-02 | 1 commentaires | Partager sur WhatsApp

Le Segment Anything Model 2 (SAM 2) de Meta FAIR est un modèle de segmentation unifié conçu pour sélectionner et segmenter rapidement des objets dans des images et des vidéos
Les utilisateurs peuvent désigner un objet à l’aide de clics, de boîtes ou de masques comme prompts, puis affiner la prédiction de masque avec des prompts supplémentaires
Dans les vidéos, un module de mémoire par session conserve les informations des objets des images précédentes, ce qui permet de poursuivre le suivi sur l’ensemble des images même si l’objet est brièvement occulté
SAM 2 améliore la segmentation d’images par rapport à SAM, et met particulièrement l’accent sur le suivi partiel et le temps d’interaction dans la segmentation d’objets vidéo
Meta a publié le modèle préentraîné, le code, la démo et le jeu de données SA-V, qui comprend environ 51K vidéos et plus de 600K masklets

Une segmentation unifiée pour les images et les vidéos

SAM 2 est le premier modèle unifié pour la segmentation d’objets sur les images et les vidéos
Les utilisateurs peuvent sélectionner des objets dans une image ou une image vidéo en saisissant des clics, des boîtes ou des masques
Dans les vidéos, il est possible de désigner un ou plusieurs objets, et d’affiner les prédictions à n’importe quelle image grâce à des prompts supplémentaires
Il est conçu pour offrir de solides performances zero-shot sur des objets, images et vidéos jamais vus pendant l’entraînement, ce qui le rend exploitable dans de nombreuses applications réelles
Il traite efficacement les vidéos grâce à une inférence en streaming, compatible avec des applications en temps réel et interactives

Performances et expérience d’usage interactive

SAM 2 est présenté comme un modèle plus performant que les meilleurs modèles du domaine pour la segmentation d’objets dans les vidéos et les images
Principaux points de performance
- Amélioration de la segmentation d’images par rapport à SAM
- Supérieur aux modèles existants de segmentation d’objets vidéo, avec un avantage particulier sur le suivi partiel
- Nécessite moins de temps d’interaction que les méthodes existantes de segmentation vidéo interactive
Dans la démo, un seul clic sur une image suffit pour suivre un objet de manière interactive sur toute la vidéo et créer des effets
La démo est disponible sur SAM 2 demo

Architecture du modèle pour le suivi vidéo

L’architecture étend aux vidéos la sélection par prompts de SAM
Elle ajoute un module de mémoire par session qui stocke les informations sur les objets ciblés dans la vidéo
- Permet de suivre les objets sélectionnés sur l’ensemble des images de la vidéo
- Exploite le contexte des images précédentes même lorsqu’un objet disparaît temporairement du champ
Il est possible de corriger la prédiction de masque avec des prompts supplémentaires sur n’importe quelle image
L’architecture en streaming traite les images vidéo une par une
Lorsqu’il est appliqué à une image, le module de mémoire est vide et le modèle fonctionne comme SAM

Jeu de données SA-V

SAM 2 a été entraîné sur des vidéos à grande échelle et variées ainsi que sur des masklets
- Un masklet désigne un masque d’objet au fil du temps
- Les données ont été générées en appliquant SAM 2 de manière interactive dans un moteur de données model-in-the-loop
Les données d’entraînement incluent le jeu de données SA-V, publié en open source
Principaux chiffres du jeu de données SA-V
- Plus de 600K masklets collectés à partir d’environ 51K vidéos
- Des scénarios réels géographiquement diversifiés collectés dans 47 pays
- Des annotations sur des objets entiers, des parties d’objets et des situations d’occlusion difficiles
Pour tout problème ou question concernant le jeu de données SA-V, contactez support@segment-anything.com
Le jeu de données est consultable sur Explore the dataset

Ressources publiées et perspectives d’usage

Meta publie le modèle Segment Anything 2 préentraîné, le jeu de données SA-V, la démo et le code afin que la communauté de recherche puisse poursuivre les travaux
Avec ces ressources publiées, Meta met aussi en avant les points suivants
- Une transparence sur les données d’entraînement de SAM 2
- La priorité donnée à la diversité géographique du jeu de données SA-V pour mieux représenter le monde réel
- La réalisation d’une évaluation de l’équité de SAM 2
Le modèle et le code sont disponibles sur Download the model
L’article de recherche est disponible sur Read the research paper
SAM 2 peut être utilisé seul ou comme composant d’un système plus large combiné à d’autres modèles à l’avenir
- Les sorties de segmentation d’objets vidéo peuvent servir d’entrée à d’autres systèmes d’IA, comme les modèles récents de génération vidéo, afin de permettre des fonctions d’édition précises
- À l’avenir, il pourra être étendu à d’autres types de prompts d’entrée pour prendre en charge des façons créatives d’interagir avec des objets dans des vidéos en temps réel ou en direct

1 commentaires

GN⁺ 2024-08-02

Avis sur Hacker News

Meta fait vraiment du bon travail. Google semble prendre du retard dans la recherche en IA et dans les résultats utiles partagés avec la communauté.
Je suis convaincu que Llama et d’autres projets vont favoriser de nouvelles créations, entreprises et avancées. Leur manière de partager ouvertement le code et la recherche finira aussi par se traduire en valeur pour l’activité de Meta.
C’est là qu’on voit la différence entre une entreprise dirigée par son fondateur et une entreprise tirée par le marché. Google semble davantage préoccupé par des objectifs de court terme, comme éviter un mauvais trimestre ou éviter de gros investissements dans des projets dont la rentabilité n’est pas immédiatement visible, comme la VR.
Le jour où Meta trouvera la killer app de la VR, les autres entreprises pourraient être tellement en retard qu’elles devront acheter du logiciel à Meta ou ne prendront presque aucune part de ce nouveau marché. C’est un peu comme l’avance de Nvidia dans les puces IA : un domaine dans lequel personne n’avait suffisamment investi.
- Google reste en avance dans la recherche en IA. C’est presque l’inverse d’une logique de court terme, et si cela ne se voit pas, c’est peut-être parce qu’une grande partie du travail relève de la recherche fondamentale, de la chimie ou de la physique, ou de domaines qui ne sont pas rendus publics comme chez Facebook.
  En revanche, Google est en retard pour transformer cette recherche en produits. Jusqu’ici, on a l’impression qu’ils font le minimum pour transférer des modèles entraînés vers des produits.
- Je ne sais pas trop, mais j’ai l’impression que la différence pourrait être la suivante. Meta peut essayer beaucoup de choses et trouver une killer application plus tard.
  À l’inverse, Google semble ressentir de manière existentielle que la recherche doit forcément être la killer application, et cherche à tout y faire entrer de force. Ce faisant, ils placent la barre de la réussite trop haut et semblent ignorer le niveau réel de la technologie.
- Je ne vois pas très bien ce que Meta fait de si bien. Les intégrations IA dans WhatsApp ou Instagram sont presque inutiles, et donnent l’impression d’avoir été ajoutées pour tromper le marché et faire passer Meta pour une entreprise d’IA.
  Je considère Zuckerberg comme l’un des CEO les moins imaginatifs. À part l’appareil Portal, Meta a très peu de produits originaux ; la plupart sont des produits acquis. C’est une entreprise extrêmement faible en matière d’innovation.
  Zuckerberg semble avoir mené une campagne de communication pour redorer son image, mais Facebook reste une entreprise douteuse dirigée par une personne douteuse, et son cœur pourri n’a pas changé. Rien que cette semaine, l’entreprise a reçu une amende de plusieurs milliards de dollars au Texas.
  Meta est loin d’être une « entreprise dirigée par son fondateur ». Les fondateurs des applications rachetées partent rapidement, et elles finissent dirigées par des profils de consultants en management comme Adam Mosseri.
  Il est triste de voir que des gens croient encore au pari sur le métavers lancé par Zuckerberg pour donner à Meta l’image d’une entreprise innovante alors que la croissance des utilisateurs ralentissait. Je ne comprends toujours pas pourquoi cette arnaque du métavers n’a pas constitué une infraction aux règles de la SEC.
- On parle de « différence entre une entreprise dirigée par son fondateur et une entreprise dirigée par le marché », mais je me demande si elles sont vraiment si différentes.
  Facebook lance aussi des choses coûteuses dont la voie de monétisation est floue, comme Llama. Google a également lancé des choses coûteuses dont la voie de monétisation était floue, comme Waymo, Google Glass, Google Fiber, Stadia, et tout ce qui figure sur https://killedbygoogle.com.
  Facebook a fortement réorienté toute l’entreprise autour de la vision du métavers, puis a échoué ; Google a fortement réorienté toute l’entreprise autour de la vision de Google Plus, puis a échoué.
  Facebook s’est rebaptisé Meta, et Google s’est rebaptisé Alphabet.
  Facebook possède une organisation de recherche en IA fondée par un professeur franco-américain d’informatique, lauréat du prix Turing ; Google possède une organisation de recherche en IA fondée par un professeur britanno-canadien d’informatique, lauréat du prix Turing.
  Facebook a publié PyTorch, une bibliothèque open source de machine learning en Python largement utilisée, au nom en CamelCase ; Google a publié TensorFlow, une bibliothèque open source de machine learning en Python largement utilisée, au nom en CamelCase.
  Peut-être qu’elles suivent toutes deux le même playbook, et que récemment, les paris de Facebook ont simplement eu la chance de tomber juste.
- Tous les fondateurs ne se valent pas. Certains fondateurs détestent voir le cours de l’action baisser, même s’ils n’ont pas besoin d’argent immédiatement.
  Et les résultats sont mitigés. Personnellement, je pense que Zuckerberg s’est trompé sur la VR, mais qu’il a eu raison sur l’IA.
Discussion précédente : https://news.ycombinator.com/item?id=41104523
- C’est étonnant qu’une grosse actualité disparaisse aussi vite de la première page. Hacker News semble optimisé pour les gens qui consultent le site plusieurs fois par jour.
Si quelqu’un m’avait dit il y a seulement 10 ans que Facebook deviendrait l’une des entreprises qui innovent le plus ouvertement, et que Mark Zuckerberg serait l’un des milliardaires relativement les plus raisonnables, j’aurais franchement ri.
Mais aujourd’hui, les choses ont changé. Quelles que soient les réussites réelles de leurs initiatives en VR et en IA, elles semblent déjà destinées à laisser une certaine trace dans l’histoire.
- Pour être juste, Meta a une assez longue histoire de publication en open source de logiciels internes qui sont ensuite devenus des standards de l’industrie. Ce n’est pas du tout nouveau.
  C’est particulièrement vrai dans les technologies de bases de données : rocksdb, zstd compression, presto, Cassandra, Hive et Velox ont tous été créés par Meta.
  Ce ne sont que les plus populaires ; il existe beaucoup plus de projets liés aux bases de données qui ont été publiés sans devenir très connus.
  En tant qu’entreprise, il y a beaucoup à critiquer, mais elle a toujours été un grand contributeur à l’écosystème open source.
- J’aime Oculus, mais la VR n’a pas encore atteint une universalité culturelle.
Quand je vois ce genre de choses, je pense toujours à l’interface utilisateur de carte orbitale holographique dans The Expanse.
Cela ressemble à une sorte de papier du futur connecté à tout ce à quoi on pense, et pourrait devenir un outil vraiment puissant pour explorer le monde.
Quand je travaillais dans le montage et le motion design, j’aurais désespérément voulu avoir quelque chose comme ça.
Le Roto Brush d’After Effects est similaire, mais la qualité a toujours été insuffisante et le temps de traitement beaucoup trop long.
- Le Roto Brush d’After Effects est un outil salvateur, mais il a ses limites. SAM change clairement la donne.
Il est indiqué que le code a été publié, mais je ne trouve rien à part du code d’exemple. Le code d’entraînement a-t-il aussi été publié ?
- Quand ils parlent de « publication du modèle Segment Anything 2 pré-entraîné et du code », il semble s’agir de ce dépôt : https://github.com/facebookresearch/segment-anything-2
Les résultats sont impressionnants. Voici une vidéo de test tournée à l’intérieur de Mercer Labs : https://youtu.be/W7kM0ISXkpQ?feature=shared
- Je ne sais pas ce que je suis en train de regarder, ni en quoi c’est lié à SAM2.
Firefox ne semble pas pris en charge.
Il faut aussi remercier les milliers de travailleurs africains qui ont effectué ce travail fastidieux et répétitif sur les datasets.

Meta dévoile Segment Anything Model 2

Une segmentation unifiée pour les images et les vidéos

Performances et expérience d’usage interactive

Architecture du modèle pour le suivi vidéo

Jeu de données SA-V

Ressources publiées et perspectives d’usage

À lire aussi

1 commentaires

Avis sur Hacker News