Meta FAIR publie 9 nouveaux travaux, modèles et jeux de données

(ai.meta.com)

1 points par GN⁺ 2024-12-14 | 1 commentaires | Partager sur WhatsApp

Meta FAIR a publié 9 livrables, sous forme de code, modèles, jeux de données et démos, couvrant les agents, la robustesse et la sécurité, ainsi que les architectures de modèles pour la recherche en intelligence artificielle avancée
Les principales publications incluent Meta Motivo pour le contrôle d’humanoïdes virtuels, Meta Video Seal pour le watermarking vidéo, la base de code Flow Matching, Explore Theory-of-Mind, Large Concept Model, etc.
Meta Motivo utilise des données de mouvement non étiquetées et un nouvel algorithme pour placer états, mouvements et récompenses dans un même espace latent, et exécuter des tâches de contrôle du corps entier sans apprentissage ni planification supplémentaires
Meta Video Seal insère dans les vidéos un watermark invisible et, en option, des messages cachés, tout en étant conçu pour résister aux éditions courantes comme le flou, le recadrage et la compression liée au partage en ligne
Les chercheurs peuvent télécharger, expérimenter, intégrer et étendre les livrables publiés, tandis que Meta met l’accent sur la science ouverte reproductible et un écosystème ouvert

Périmètre des publications de Meta FAIR

Meta FAIR met à disposition de la communauté de recherche ses derniers travaux de recherche, codes, modèles et jeux de données
Cette publication se concentre sur trois axes
- Construire des agents plus capables
- Robustesse et sécurité
- Innovations d’architecture permettant aux modèles d’apprendre plus efficacement de nouvelles informations et de dépasser leurs limites actuelles
Au total, 9 projets et livrables peuvent être téléchargés et utilisés immédiatement
L’objectif est de stimuler la recherche itérative par la publication précoce des travaux et de faire progresser l’IA de manière responsable

Meta Motivo : modèle de base comportemental pour le contrôle d’humanoïdes virtuels

Meta Motivo est un modèle fondé sur le comportement qui contrôle les mouvements d’agents humanoïdes virtuels incarnés afin d’exécuter des tâches complexes
L’apprentissage par renforcement non supervisé existant nécessite souvent des jeux de données d’interaction affinés, ou s’appuie sur des pertes non supervisées susceptibles de produire des politiques mal alignées avec la tâche cible
Meta Motivo est entraîné avec un nouvel algorithme exploitant des jeux de données de mouvement non étiquetés
- Il apprend une représentation qui intègre états, mouvements et récompenses dans le même espace latent
- Il résout des tâches de contrôle du corps entier, comme le suivi de mouvements, l’atteinte d’une posture cible ou l’optimisation de récompenses, sans apprentissage ni planification supplémentaires
Ses performances sont compétitives avec les méthodes spécialisées par tâche, et supérieures aux dernières références en apprentissage par renforcement non supervisé et en modèles à base de modèle
Il montre une forte robustesse face à des changements d’environnement non vus à l’entraînement, comme la gravité, le vent ou des perturbations directes
Cette recherche pourrait déboucher sur des agents pleinement incarnés pour le Metaverse, des PNJ plus réalistes, la démocratisation de l’animation de personnages et de nouvelles expériences immersives
Lire l’article
Essayer la démo
Télécharger le code et le modèle

Meta Video Seal : watermarking vidéo open source

Meta Video Seal est un framework de pointe pour le watermarking vidéo fondé sur les réseaux neuronaux
Il insère dans les vidéos un watermark invisible, avec la possibilité d’inclure aussi un message caché
Le watermark inséré peut ensuite être extrait pour aider à vérifier l’origine de la vidéo
Il est conçu pour résister aux processus courants de montage et de partage vidéo
- Flou
- Recadrage
- Algorithmes de compression couramment utilisés pour le partage de contenu en ligne
Le modèle Video Seal est publié sous licence permissive, avec l’article, le code d’entraînement, le code d’inférence et une démo
Des livrables liés au watermarking sont également publiés
- Meta Omni Seal Bench : leaderboard consacré au watermarking neuronal sur plusieurs modalités
- Meta Watermark Anything : republié sous licence permissive
- Atelier ICLR 2025 sur le watermarking
Watermark Anything, Video Seal et Audio Seal sont disponibles pour téléchargement et intégration
Lire l’article
Essayer la démo
Télécharger le code et les modèles de Video Seal
Télécharger le code et les modèles de Watermark Anything
Voir le leaderboard Omni Seal Bench

Guide et base de code Flow Matching

Flow Matching est un paradigme génératif utilisé sur plusieurs modalités : images, vidéos, audio, musique, structures 3D comme les protéines, etc.
En interne chez Meta, il remplace les approches de diffusion existantes dans plusieurs applications génératives
- Meta Movie Gen
- Meta Audiobox
- Meta Melody Flow
Dans l’industrie, on trouve des exemples comme Stable-Diffusion-3, Flux, Fold-Flow et Physical Intelligence Pi_0
Flow Matching est un framework d’IA générative simple mais flexible, qui améliore les performances et l’efficacité tout en facilitant la généralisation à des données complexes
Les éléments publiés comprennent l’article, les implémentations de base de Flow Matching continu et discret, ainsi que des scripts d’entraînement de pointe
Lire l’article
Télécharger le code

Explore Theory-of-Mind : génération de données de raisonnement sur la théorie de l’esprit

Meta Explore Theory-of-Mind est un framework de génération de données adversariales guidée par programme pour le raisonnement sur la théorie de l’esprit
Les jeux de données existants sur la Theory-of-Mind se limitent souvent à l’évaluation et ne couvrent qu’un éventail restreint d’interactions
Ce framework génère des données de raisonnement ToM variées, difficiles et extensibles, utilisables à la fois pour l’entraînement et l’évaluation
Il permet de créer des histoires robustes et fiables qui testent les limites des grands modèles de langage
Le fine-tuning de Llama-3.1 7B a permis d’obtenir une amélioration de 27 points de précision sur le benchmark couramment utilisé ToMi
Les usages couvrent la génération de jeux de données pour améliorer les LLM, le renforcement de scénarios orientés objectif, la collecte de jeux de données d’interaction et les benchmarks d’évaluation des performances des LLM
Lire l’article
Télécharger le code
Télécharger le jeu de données

Large Concept Model : prédire des concepts plutôt que des tokens

Large Concept Model(LCM) est un autre paradigme d’entraînement pour la modélisation du langage
Les modèles de langage dominants actuels fonctionnent généralement au niveau des tokens et ne raisonnent pas explicitement de manière hiérarchique
Le cœur de LCM consiste à séparer le raisonnement de l’expression linguistique
- Il s’inspire du fait qu’une personne peut conserver le même ordre d’idées lors d’une présentation tout en variant à chaque fois le choix des mots
LCM est entraîné à prédire le concept suivant, ou l’idée de haut niveau suivante, plutôt que le token suivant
Les concepts sont représentés comme des phrases entières dans un espace d’embedding multimodal et multilingue
Sur des tâches purement génératives comme le résumé, il offre des performances supérieures ou comparables à celles de LLM récents, et une forte généralisation zero-shot sur des langues non vues
Plus le contexte d’entrée est long, plus son efficacité de calcul est élevée
Lire l’article
Télécharger le code

Dynamic Byte Latent Transformer : modèle au niveau des octets sans tokenizer

Dynamic Byte Latent Transformer est un modèle hiérarchique au niveau des octets utilisant un patching dynamique
Les modèles de langage existants tokenisent le texte lors d’une étape de prétraitement heuristique, ce qui limite l’entraînement de bout en bout, complique l’optimisation en conditions réelles et peut dégrader les performances sur les séquences de texte rares
Ce modèle fonctionne sur les octets, sans heuristiques de tokenisation
Il améliore aussi l’efficacité du traitement de longues séquences à l’entraînement et à l’inférence
Il présente un avantage moyen de 7 points en robustesse par rapport aux modèles basés sur des tokenizers
Il est particulièrement adapté au traitement de la longue traîne de symboles non vus et de séquences rares
Cette approche pourrait contribuer aux progrès du raisonnement dans des domaines comme les langues à faibles ressources, le code et la factualité
Lire l’article
Télécharger le code

Meta Memory Layers : extension de mémoire clairsemée pour les informations factuelles

Meta Memory Layers at Scale est une méthode qui améliore la factualité sur des benchmarks courants de factualité en étendant les couches mémoire
La mémoire paramétrique est le réservoir d’informations factuelles stocké dans les poids d’un réseau neuronal pendant le préentraînement, et contribue à la compréhension des concepts complexes et des nuances linguistiques par les LLM
Alors que les approches de scaling existantes approchent des limites de l’extension efficace, de nouvelles architectures capables d’apprendre l’information plus efficacement deviennent nécessaires
Les Memory Layers ajoutent des paramètres supplémentaires au modèle via un mécanisme apprenable de recherche clé-valeur, sans augmenter les FLOPs
Les couches mémoire à activation clairsemée complètent les couches feed-forward denses coûteuses en calcul, et offrent une capacité dédiée pour stocker et retrouver l’information à faible coût
Les modèles de langage dotés de couches mémoire améliorées surpassent les modèles suivants sur les tâches aval
- Des modèles denses disposant de plus de 2× le budget de calcul
- Des modèles MoE alignés en calcul et en nombre de paramètres
Contrairement à l’idée reçue selon laquelle les architectures de mémoire clairsemée seraient difficiles à mettre à l’échelle de façon compétitive, elles ont été étendues efficacement jusqu’à 128B paramètres et à un modèle de base 8B, avec des gains à calcul comparable sur les benchmarks courants de factualité
Lire l’article
Télécharger le code

Image Diversity Modeling et EvalGIM

FAIR mène des recherches pour comprendre le développement sûr de modèles de génération d’images et créer de nouvelles méthodes
Le modèle de génération d’images développé au cours de ces recherches s’appuie sur des travaux antérieurs concernant les architectures de modèles génératifs et les fonctions de perte
Ce modèle donne la priorité à la génération d’images représentatives du monde physique tout en conservant une qualité d’image compétitive avec les modèles de pointe
Des experts externes peuvent l’utiliser pour étudier les domaines susceptibles d’améliorer la sécurité et la responsabilité de la modélisation de la diversité d’images dans son ensemble
Une boîte à outils d’évaluation complète pour les modèles texte-image sera également publiée en open source
- Elle améliore la facilité et la reproductibilité du benchmarking de la génération d’images
- Elle favorise des résultats interprétables utiles à la recherche responsable en texte-image
Lire l’article
Télécharger le code

Meta CLIP 1.2 : encodeur vision-langage et curation de données

Meta CLIP 1.2 est une publication destinée au développement d’encodeurs vision-langage haute performance
Meta a développé des algorithmes pour curer et aligner efficacement des données image-texte à grande échelle, afin que les modèles apprennent la connaissance humaine du monde
Des jeux de données vastes, de haute qualité et diversifiés sont essentiels pour construire des modèles de base apprenant sur le monde
Meta CLIP correspond aux travaux de Meta pour construire ces jeux de données et modèles de base
Pour des modèles de base d’encodeurs vision-langage de haute qualité et sûrs, Meta développe des algorithmes de curation et d’alignement des données, et applique des mesures d’intégrité et de protection de la vie privée
Les éléments publiés peuvent être utilisés par les chercheurs et développeurs pour faire progresser la compréhension vision-langage
- Algorithmes de données
- Recettes d’entraînement
- Modèles de base entraînés sur des jeux de données curés
Les exemples d’usage incluent l’encodage visuel pour les MLLM, les embeddings multimodaux pour la recherche, la classification zero-shot et un point de départ pour la recherche sur la qualité des données
Les algorithmes et méthodes d’entraînement peuvent aussi servir à créer de zéro des jeux de données de type CLIP à grande échelle et de haute qualité
Lire l’article
Télécharger le jeu de données
Télécharger le code
Télécharger le modèle

1 commentaires

GN⁺ 2024-12-14

Avis sur Hacker News

Il y a vraiment beaucoup de choses intéressantes ici, et les idées liées aux LLM ressortent particulièrement.
Un grand modèle de concepts qui manipule et prédit des concepts plutôt que des tokens, le Dynamic Byte Latent Transformer comme alternative au niveau octet à la tokenisation standard, ou encore une couche de mémoire clairsemée qui étend la hiérarchie de mémoire clé-valeur sans augmenter les besoins en calcul sont présentés comme autant de méthodes distinctes pour améliorer la qualité ou l’efficacité.
Je me demande à quel point la qualité et l’efficacité progresseraient si l’on combinait toutes ces méthodes, et je me dis que ce pourrait peut-être être Llama 4.
- J’aimerais que Llama 4 ou 5 ait une architecture différente.
  Jusqu’ici, les Llama publiés avaient une architecture d’inférence quasiment similaire, avec surtout un pipeline d’entraînement amélioré.
  L’inconvénient, c’est que llamacpp pourrait ne pas pouvoir exécuter le nouveau modèle, et qu’une grosse réécriture pourrait même être nécessaire, avec à la clé de nouveaux programmes en C, C++, Go ou Rust.
- Je me demande s’il existe une meilleure façon de présenter ce type de contenu.
  Je suis en train de créer des documents ou démos similaires ; s’il s’agissait d’une page de documentation, chaque section pourrait être structurée uniformément avec un titre, du contenu, un lien vers le code et un lien vers l’article.
  Mais cette page-ci est en soi un billet de blog, donc elle risque d’être difficile à retrouver l’an prochain.
  Existe-t-il d’autres exemples d’entreprises qui organisent bien leurs résumés techniques et les rendent durablement accessibles depuis leur page d’accueil ?
- C’est assez ironique que Meta soit finalement devenue la plus grande organisation d’IA ouverte.
  Bien sûr, ce n’est pas de l’« open source », mais ils laissent les gens l’utiliser et publient aussi ouvertement leurs recherches.
Vraiment génial.
La première démo est très amusante à essayer, et on dirait un jeu où gagne celui qui parvient à faire faire le moonwalk au modèle.
Mon meilleur essai était probablement quelque chose comme (body_speed_forward < -0.3) * (head_height > 1.0) * (stay_still > 0.2) * (body_speed_vertical < 0.1) * (stay_upright > 0.9).
https://i.imgur.com/O5hGMo5.gif
Et « Meta Explore Theory of Mind » est encore plus intéressant.
Il y a environ un mois, il y avait déjà eu un fil où l’on parlait de concepts comme les « croyances » et de la mise à jour du modèle du monde en conséquence.
https://news.ycombinator.com/item?id=42035985
J’espère que le Dynamic Byte Latent Transformer marchera bien.
J’aimerais vraiment que les tokenizers disparaissent désormais.
Le fait qu’il s’agisse d’une structure hiérarchique, mais avec seulement deux niveaux, est aussi intéressant ; empiler davantage de niveaux semble être une suite naturelle pour de futurs travaux.
- Je suis l’un des auteurs :)
  Je pense que c’est une bonne piste de recherche.
  Cela dit, c’est aussi beaucoup de choses à faire d’un coup, et il faut faire attention à la manière de répartir le budget en FLOP sur l’ensemble de la hiérarchie.
  Avec deux niveaux, on peut rendre l’un efficace en FLOP comme encodeur octet/local, et faire consommer beaucoup de FLOP à l’autre comme encodeur patch/global.
  Il faut aussi trouver comment regrouper les patches en unités plus grandes, mais il y a beaucoup de directions possibles à partir de là.
Si l’on pense au contexte business qui pousse Meta à faire cela, avec 70 milliards de dollars de trésorerie, payer des centaines de millions de dollars à des experts en IA ressemble à de la petite monnaie.
- Il suffit d’imaginer qu’un changement fondamental survienne dans le monde de la recherche en IA.
  L’IA pourrait soudainement augmenter fortement la productivité des programmeurs, devenir très performante pour détecter les vulnérabilités, faire du chat IA un nouveau grand divertissement, ou faire des images générées par IA un contenu largement partagé sur Instagram.
  Si l’une de ces choses se produit, Facebook pourrait vouloir accéder à des modèles de pointe et les adapter pour ses développeurs ou outils internes, ou pour les intégrer dans ses apps.
  Mais si le seul moyen d’y accéder consiste à signer des contrats à 7 à 9 chiffres avec des vendeurs de modèles comme OpenAI, ce serait terrible.
  Pire encore, un concurrent majeur dans la publicité pourrait commencer à fournir aux annonceurs de puissants outils d’IA pour adapter leurs créations à de multiples formats.
  Facebook prendrait alors beaucoup de retard et pourrait perdre chaque trimestre des parts de marché publicitaire valant des dizaines de milliards de dollars, tout en versant des millions à une entreprise comme OpenAI.
  Dans ce pire scénario, Facebook aurait l’air stupide ; et si ne serait-ce qu’un de ces scénarios est possible, l’investissement a du sens.
  L’open source, ou le fait de rendre Meta attractive comme lieu de travail, sont des bonus stratégiques supplémentaires.
- On peut voir ça comme « banaliser les compléments ».
  Si OpenAI connaît un énorme succès et devient la seule option, elle pourra exiger une énorme rente de monopole de tous ceux qui utilisent son service.
  Il est donc dans l’intérêt des autres entreprises, et de tous ceux qui veulent utiliser l’IA, qu’il y ait beaucoup de concurrents dans l’écosystème IA afin que les prix restent bas.
- Pour attirer suffisamment de chercheurs de tout premier plan, il faut forcément autoriser la publication d’articles.
- Ces experts en IA ont justement joué un rôle clé dans les 70 milliards de dollars que Meta gagne au départ.
- À mon avis, toutes les réponses jusqu’ici sont naïvement à côté de la plaque.
  Facebook vend des espaces publicitaires dans plusieurs apps, et pour que ces espaces publicitaires aient de la valeur, il faut que les gens restent dans les apps.
  Pour que les gens restent dans les apps, il faut du contenu qui les attire.
  C’est donc simple : faire en sorte que n’importe qui, individus comme entreprises, puisse créer massivement du contenu à bas coût et le partager dans les apps.
J’ai récemment eu l’occasion d’assister à une présentation de Ross Taylor, ex-Meta, lors d’un meetup AI Engineer London.
La vidéo complète de la présentation est également disponible.
https://www.youtube.com/watch?v=S5l5OvJ01ws
Je n’avais pas réalisé à quel point Meta avait travaillé sur le raisonnement et la théorie de l’esprit.
- Bonne vidéo.
  Elle permet de replacer o1 dans son contexte.
  Vu le rythme auquel OpenAI, Google et Meta publient, ce devrait être au tour d’Anthropic ensuite.
Chaque fois que je dois nettoyer du texte, je me demande pourquoi on n’a pas tout simplement entraîné un autoencodeur de débruitage au niveau octet pour s’en charger à la place.
- Idée intéressante.
  En vision, cela capture efficacement le contexte global et local ; je me suis donc toujours demandé ce que donneraient des essais avec U-Net ou un hourglass net sur des données textuelles, mais je ne l’ai jamais fait moi-même.
Quelqu’un peut-il expliquer en quoi le fait d’ajouter volontairement des filigranes aux vidéos IA aide à rendre l’IA plus sûre ?
- Cela permet aux fournisseurs de services de génération de vidéos IA de mettre un filigrane sur toutes les vidéos qu’ils créent
  L’intention n’est donc pas vraiment que ce soit volontaire, mais que ce soit appliqué au niveau du service
  Au final, il se pourrait qu’il ne reste que les services qui ne suivent pas les règles actuelles des Big Tech
  Par exemple, un peu comme Grok/X.ai : la qualité était moindre, mais les gens l’utilisaient pour créer des images pro-Trump
  https://arstechnica.com/information-technology/2024/08/musks...
- À ce stade, combien coûte l’entraînement d’un modèle ?
  Dans les prochaines années, cela devrait devenir abordable pour les grands États ou la plupart des oligarques, et c’est peut-être déjà le cas
  Donc le plus réaliste est probablement que tout le monde considère le watermarking comme volontaire
  À mon avis, aujourd’hui, les images et les vidéos n’ont même pas la valeur de leurs bits en tant que preuves d’un fait particulier
Tout cela est absurdement intéressant
Tout le monde parle de l’enthousiasme que suscitent ces travaux, en particulier LCM et le tokenizer qui ne tokenise pas, mais si quelqu’un a suivi ça, j’aimerais poser une question
Pourquoi utilisent-ils le terme « advanced machine intelligence » ?
Ma première pensée a été que c’était pour apaiser les prophètes de l’apocalypse ou détourner leur attention, mais c’est peut-être juste moi qui me fais des idées
- Ce terme vient de l’article de Yann LeCun de 2022
  AMI était un terme distinct d’AGI
  Cela dit, ces dernières années, le A a varié selon le contexte : autonomous, advanced, augmented
  [1] https://openreview.net/pdf?id=BZ5a1r-kVsf
- LeCun n’a pas l’air d’aimer le terme AGI
- J’attends le jour où tout cela finira par être appelé des Minds :)
- Cela ressemble à une réponse à de récentes études de marché indiquant que le grand public trouve généralement que tout ce qui porte l’étiquette « AI » ressemble à une arnaque et inspire peu confiance
Meta a clairement amélioré son image, et aide l’IA à devenir une technologie sans douve
- Meta ne vend pas d’IaaS ni de PaaS, mais si l’IA se retrouve entre les mains de davantage d’acteurs que Google et OpenAI, l’adéquation de Meta s’améliore
  En banalisant l’IA, cela fait émerger toutes sortes d’activités, qui atteindront leurs clients via les plateformes de Meta
- Même si l’on fait tout le bien possible avec les LLM, on continue quand même à ruiner la société avec Facebook
- Ce n’est pas la rédemption si l’on continue à commettre le péché originel
J’ai l’impression d’apprendre une dizaine de nouvelles architectures d’un coup

Meta FAIR publie 9 nouveaux travaux, modèles et jeux de données

Périmètre des publications de Meta FAIR

Meta Motivo : modèle de base comportemental pour le contrôle d’humanoïdes virtuels

Meta Video Seal : watermarking vidéo open source

Guide et base de code Flow Matching

Explore Theory-of-Mind : génération de données de raisonnement sur la théorie de l’esprit

Large Concept Model : prédire des concepts plutôt que des tokens

Dynamic Byte Latent Transformer : modèle au niveau des octets sans tokenizer

Meta Memory Layers : extension de mémoire clairsemée pour les informations factuelles

Image Diversity Modeling et EvalGIM

Meta CLIP 1.2 : encodeur vision-langage et curation de données

À lire aussi

1 commentaires

Avis sur Hacker News