7 points par GN⁺ 2025-11-20 | 1 commentaires | Partager sur WhatsApp
  • Meta a dévoilé SAM 3, capable de trouver, segmenter et suivre les objets souhaités dans des images et des vidéos à partir de texte, d’images d’exemple et de prompts visuels
  • Avec les checkpoints du modèle, le jeu de données d’évaluation et le code de fine-tuning, l’entreprise propose aussi Segment Anything Playground, un environnement permettant à tout le monde d’expérimenter facilement
  • La publication d’un nouveau benchmark massif de segmentation de concepts, SA-Co, ainsi que de SAM 3D, élargit l’écosystème de segmentation de concepts à l’ensemble de la 2D et de la 3D
  • De nouvelles fonctions de génération et d’édition de médias fondées sur la segmentation d’objets sont en cours de déploiement dans les services de Meta, dont Marketplace, Instagram Edits et Meta AI
  • En tant que modèle intégrant la segmentation de concepts basée sur le texte et sur des exemples, il gagne en potentiel comme outil de perception généraliste dans la recherche, l’industrie, la conservation et la robotique

Présentation de SAM 3

  • Il s’agit d’un modèle unifié qui reçoit divers types de prompts — texte, exemples d’image, masques, boîtes, points — pour détecter, segmenter et suivre des concepts dans des images et des vidéos
    • Il prend en charge nativement la segmentation en vocabulaire ouvert à partir de groupes nominaux courts
    • Des prompts complexes comme “people sitting down but not holding a gift box” peuvent être traités en combinaison avec un MLLM
  • Il dépasse les limites des précédents SAM, contraints à des ensembles de labels fixes, en s’étendant à la segmentation de concepts arbitraires (promptable concept)
  • Le nouveau benchmark SA-Co (Segment Anything with Concepts) mesure les performances de reconnaissance de concepts à grande échelle dans les images et les vidéos

Fonctions principales

  • Prise en charge de la détection de concepts à partir de prompts textuels et de la segmentation de toutes les instances correspondantes
    • Peut aussi traiter des descriptions fines comme “striped red umbrella”
  • Les exemples d’image (exemplars) permettent de définir un concept à partir d’un objet réel
  • Conservation des prompts par boîte/point/masque déjà proposés dans SAM 1 et 2
  • Utilisation d’un MLLM comme outil pour effectuer une exploration itérative de requêtes complexes (SAM 3 Agent)

Moteur de données

  • Mise en place d’un pipeline hybride de production de données combinant SAM 3 + humains + annotateur IA (basé sur Llama 3.2v)
    • Légendage automatique → génération de labels textuels → génération de masques initiaux → validation par l’IA et par des humains
    • Traitement 5 fois plus rapide sur les prompts négatifs (concept absent) et gain de vitesse de 36 % aussi sur les prompts positifs
  • Constitution d’un vaste jeu d’entraînement contenant plus de 4 millions de concepts uniques
  • Extension de la couverture des concepts rares grâce à une ontologie de concepts basée sur Wikipédia

Architecture du modèle

  • Les encodeurs texte/image reposent sur Meta Perception Encoder
  • La détection d’objets utilise DETR, et le suivi réemploie la configuration memory bank + tracker de SAM 2
  • Le point clé est la conception d’une recette d’apprentissage évitant les conflits pour exécuter plusieurs tâches (détection, suivi, segmentation) dans un seul modèle

Performances

  • cgF1 doublé par rapport aux modèles précédents sur les images et les vidéos
  • Résultats supérieurs à ceux de modèles spécialisés comme Gemini 2.5 Pro, GLEE, OWLv2 et LLMDet
  • Dans l’évaluation des préférences utilisateurs, les résultats de SAM 3 l’emportent avec un rapport de 3 pour 1
  • 30 ms sur une image unique, et traitement quasi temps réel sur vidéo avec 5 objets
  • Des améliorations sont aussi observées en zero-shot sur LVIS, CountBench, etc.

Cas d’usage scientifiques et concrets

  • SA-FARI : jeu de données public incluant des vidéos de pièges photographiques de faune sauvage, avec plus de 100 espèces et plus de 10 000 vidéos
  • FathomNet : nouveau benchmark pour la segmentation d’instances d’organismes marins
  • Marketplace “View in Room” : visualisation d’aménagements intérieurs avec éclairage et mobilier, réalisée avec SAM 3 et SAM 3D
  • Fonction d’application d’effets vidéo basés sur les objets prévue dans Instagram Edits, l’app Meta AI et meta.ai

SAM 3D

  • Publication du modèle, du code et des données pour la reconstruction 3D d’objets et de personnes à partir d’une seule image
  • Fournit une grounded reconstruction prenant en compte le contexte spatial réel

Limites et travaux à venir

  • La généralisation zero-shot sur des concepts très spécialisés (comme platelet) reste limitée
    • Une adaptation rapide est possible via fine-tuning avec peu de données
    • Une recette de fine-tuning open source est fournie
  • Les phrases courtes sont prises en charge nativement, mais des descriptions complexes comme “top shelf second to last book” nécessitent une combinaison avec un MLLM
  • Dans la vidéo, le coût de traitement augmente linéairement avec le nombre d’objets
    • Le partage d’informations relationnelles entre objets constitue une piste d’amélioration pour la suite

Segment Anything Playground

  • Plateforme web permettant d’expérimenter SAM 3 sans connaissances techniques
    • Propose des modèles prêts à l’emploi pour pixeliser les visages, plaques d’immatriculation ou écrans, créer un spotlight, des motion trails ou agrandir un objet précis
    • Peut aussi servir à l’annotation de données et aux stress tests
  • Fournit également une segmentation et un suivi stables sur des vidéos à la première personne capturées avec le wearable Aria Gen 2
    • Peut être utilisé pour la recherche en robotique et en perception à partir du point de vue humain

1 commentaires

 
GN⁺ 2025-11-20
Avis Hacker News
  • Merci à Meta de continuer à contribuer à l’open source et de publier ce type de modèles
    Je sais qu’il existe des critiques envers l’entreprise, mais ce genre d’initiative profite à tout le monde

    • Je suis d’accord. J’avais signalé une faille de sécurité vers 2005, et à l’époque la culture de l’entreprise était différente
      Aujourd’hui, on dirait qu’elle a beaucoup évolué vers une approche plus centrée sur la communauté
    • Je n’aime pas trop le versant réseaux sociaux, mais il faut reconnaître à Meta ses publications de modèles
      Les autres grands labos ne publient pas leurs modèles de cette manière
  • À première vue, ce modèle est incroyablement performant
    La détection textuelle en “zero-shot” est très au-dessus de la génération précédente ou des VLM récents comme Gemini et Qwen
    Avec une supervision humaine, il pourrait tout à fait servir de modèle enseignant
    J’avais auparavant ajusté YOLO pour détecter des prises d’escalade, et SAM3 atteint 90 % de ce résultat sans entraînement
    En revanche, il rate les prises en bois à faible contraste ou les petits footholds

    • Tu as déjà travaillé sur quelque chose comme l’app Stokt ? Elle est assez connue dans le milieu de l’escalade aujourd’hui
    • Je travaille sur une plateforme qui annote un milliard d’images, et je pense que SAM3 pourrait en automatiser plus de 90 %
      On est en train de passer d’un schéma où l’humain aide le modèle à un schéma où le modèle aide l’humain
      Un article à ce sujet est disponible sur le blog Roboflow
  • Le générateur de maillages 3D est vraiment impressionnant
    La démo SAM3D montre qu’il gère bien aussi la séparation d’objets occultés, comme une personne assise sur une chaise, et qu’il est rapide

    • C’est vraiment impressionnant. Mais peut-on exporter directement le maillage 3D ?
      Moi, je n’ai pu récupérer que la vidéo ; je me demande s’il faut acheter des jetons
  • Mon cas d’usage concerne le suivi de motifs sur des cartes de circuits imprimés, et le modèle reste encore faible sur ce point
    Il traite bien des images comme un cheval sur une plage, mais il est moins adapté aux données industrielles
    Le fine-tuning améliorerait sans doute les choses, mais je ne l’ai pas encore essayé

    • Cas intéressant. Tu pourrais partager un lien d’exemple utile comme référence ?
  • J’ai essayé SAM3 pour la suppression de fond sur des dessins d’enfants
    (présentation du projet lié)
    Mais BiRefNet v2 reste encore légèrement plus précis
    SAM3 est un peu imprécis quand il découpe le long des traits, et il laisse parfois des zones blanches du papier
    Malgré tout, SAM3 va au-delà d’une simple suppression de fond : il a une capacité à reconnaître le sens du dessin
    On pourrait imaginer reconnaître les dessins des enfants et les relier à des actions dans un jeu

    • C’est intéressant d’avoir testé la suppression de fond avec BiRefNet
      Tu penses que c’est actuellement le modèle le plus performant ? Je serais curieux de connaître d’autres alternatives
  • J’aime bien voir dans la liste des auteurs du papier des mentions comme “Core contributor (Alphabetical, Equal Contribution)
    Cette mise en avant égalitaire des contributeurs est marquante

  • Ces cinq dernières années, la vitesse des progrès en computer vision a été lente
    Grâce aux LLM, la compréhension du langage s’est rapprochée du niveau humain, mais la vision reste encore en retrait
    La segmentation d’objets ou la généralisation aux images scientifiques restent difficiles, et on a l’impression qu’il manque quelque chose malgré des données abondantes
    Il faudra peut-être de l’agentivité dans des environnements 3D ou des signaux d’apprentissage plus riches

    • Je ne suis pas expert, mais j’ai l’impression qu’il manque un world model
      Les humains ne jugent pas seulement à partir des informations visuelles : ils complètent avec le contexte et l’expérience
      Par exemple, quand on voit une forme sombre sur une route la nuit, on déduit à partir de l’expérience passée ou des informations autour si c’est un cheval ou une clôture
      Ce type de raisonnement contextuel fait défaut aux modèles actuels
    • Dire que « les LLM comprennent le texte au niveau humain » a encore ses limites
  • Mon domaine, c’est la segmentation volumique 3D en imagerie médicale
    J’ai essayé SAM2 avec une approche en tranches 2D, mais il était moins compétitif que le standard actuel, nnUNet

    • Unet est le modèle le plus utilisé en imagerie médicale depuis dix ans
      Mais je pense que la combinaison LLM + VLM peut ouvrir une nouvelle voie
      J’ai d’ailleurs testé cette démo, et ça marchait plutôt bien
  • SAM3 est un modèle remarquable
    Il peut déjà être utilisé de façon plus interactive sur chat.vlm.run,
    et combiné avec SAM et d’autres modèles de vision sur le nouveau modèle Orion de notre équipe
    Des fonctions de segmentation et suivi vidéo seront ajoutées bientôt

    • J’ai effectivement testé, et on pouvait segmenter une personne et un chien dans la même session de chat
      Exemple de résultat
  • Avec une latence moyenne de 4 secondes, j’ai l’impression que ça reste compliqué pour la vidéo en temps réel
    (la source est un article connexe sur roboflow.com)

    • Ce chiffre est probablement lié aux ressources de calcul
      D’après le blog, sur un GPU H200, le traitement d’une seule image contenant plus de 100 objets ne prend que 30 ms