Meta FAIR publie de nouveaux résultats de recherche, modèles et jeux de données

xguru · 2024-06-21T09:46:01+09:00

Meta Fundamental AI Research (FAIR) a dévoilé de nouveaux résultats de recherche Ils comprennent six livrables de recherche axés sur les thèmes clés que sont l’innovation, la créativité, l’efficacité et la responsabilité Meta Chameleon Un modèle à architecture unifiée capable de prendre en entrée du texte et des images, et de produire une combinaison de texte et d’images en sortie Comme il traite le texte et les images via la tokenization plutôt qu’un apprentissage fondé sur la diffusion, il permet une approche unifiée et facilite la conception, la maintenance et l’extension Les principaux composants des modèles Chameleon 7B et 34B sont publiés sous une licence réservée à la recherche Le modèle de génération d’images n’est pas encore publié Multi-Token Prediction Proposition d’une nouvelle approche qui prédit plusieurs mots à la fois, au lieu de la méthode classique qui les prédit un par un Les performances du modèle et l’efficacité de l’entraînement s’améliorent, et la vitesse augmente également Un modèle préentraîné pour la complétion de code est publié sous une licence non commerciale / réservée à la recherche JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation) Un modèle de génération texte-vers-musique qui transforme des prompts textuels en extraits musicaux Il peut recevoir divers types d’entrées, comme des accords ou des beats spécifiques, afin de mieux contrôler la musique générée Il extrait les informations liées à des contrôles spécifiques grâce à l’application d’une Information bottleneck layer et d’un temporal blurring Les évaluations montrent que la qualité de génération est comparable à celle du modèle de référence, tout en offrant un contrôle bien plus varié L’article de recherche et une page d’exemples sont publiés, et le code d’inférence ainsi que les modèles préentraînés seront publiés ultérieurement AudioSeal Une technique d’audio watermarking destinée à détecter la parole générée par l’IA Elle permet d’identifier avec précision les segments générés par l’IA au sein de clips audio plus longs Elle améliore la vitesse et l’efficacité en utilisant une méthode de détection locale plutôt qu’un algorithme de décodage complexe existant Elle est publiée sous licence commerciale et s’inscrit dans des recherches visant à prévenir les usages abusifs de divers outils d’IA générative Soutien à la publication du jeu de données PRISM Il est important de recueillir les retours de personnes diverses pour améliorer les LLM La communauté de recherche s’interroge sur les méthodes, les domaines et les objectifs du processus de feedback Meta soutient la publication du jeu de données PRISM, qui cartographie les données sociodémographiques et les préférences de 1 500 participants issus de 75 pays Le jeu de données relie les préférences et les retours détaillés de chaque personne à 8 011 conversations en temps réel avec 21 LLM L’objectif est d’encourager une participation plus large au développement de l’IA et une approche plus inclusive de la conception des technologies Mesurer et améliorer les écarts géographiques des systèmes de génération texte-vers-image Il est important que les modèles texte-vers-image fonctionnent bien pour tout le monde et reflètent la diversité géographique et culturelle du monde Développement d’un indicateur automatique appelé « DIG In » pour évaluer les écarts géographiques potentiels Plus de 65 000 annotations et plus de 20 réponses à des enquêtes ont été recueillies afin d’étudier la manière dont les personnes perçoivent la représentation géographique Les chercheurs ont constaté que les personnes s’appuient davantage sur des éléments spécifiques à l’intérieur de l’image que sur l’image dans son ensemble pour reconnaître une représentation géographique Sur cette base, ils explorent des moyens d’améliorer la diversité des sorties des modèles texte-vers-image Introduction de Contextualized Vendi Score guidance afin d’accroître la diversité des représentations dans les échantillons générés tout en maintenant la qualité d’image et la cohérence entre le prompt et la génération

(ai.meta.com)

3 points par xguru 2024-06-21 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Meta Fundamental AI Research (FAIR) a dévoilé de nouveaux résultats de recherche
Ils comprennent six livrables de recherche axés sur les thèmes clés que sont l’innovation, la créativité, l’efficacité et la responsabilité

Meta Chameleon

Un modèle à architecture unifiée capable de prendre en entrée du texte et des images, et de produire une combinaison de texte et d’images en sortie
- Comme il traite le texte et les images via la tokenization plutôt qu’un apprentissage fondé sur la diffusion, il permet une approche unifiée et facilite la conception, la maintenance et l’extension
- Les principaux composants des modèles Chameleon 7B et 34B sont publiés sous une licence réservée à la recherche
- Le modèle de génération d’images n’est pas encore publié

Multi-Token Prediction

Proposition d’une nouvelle approche qui prédit plusieurs mots à la fois, au lieu de la méthode classique qui les prédit un par un
- Les performances du modèle et l’efficacité de l’entraînement s’améliorent, et la vitesse augmente également
- Un modèle préentraîné pour la complétion de code est publié sous une licence non commerciale / réservée à la recherche

JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation)

Un modèle de génération texte-vers-musique qui transforme des prompts textuels en extraits musicaux
- Il peut recevoir divers types d’entrées, comme des accords ou des beats spécifiques, afin de mieux contrôler la musique générée
- Il extrait les informations liées à des contrôles spécifiques grâce à l’application d’une Information bottleneck layer et d’un temporal blurring
- Les évaluations montrent que la qualité de génération est comparable à celle du modèle de référence, tout en offrant un contrôle bien plus varié
- L’article de recherche et une page d’exemples sont publiés, et le code d’inférence ainsi que les modèles préentraînés seront publiés ultérieurement

AudioSeal

Une technique d’audio watermarking destinée à détecter la parole générée par l’IA
- Elle permet d’identifier avec précision les segments générés par l’IA au sein de clips audio plus longs
- Elle améliore la vitesse et l’efficacité en utilisant une méthode de détection locale plutôt qu’un algorithme de décodage complexe existant
- Elle est publiée sous licence commerciale et s’inscrit dans des recherches visant à prévenir les usages abusifs de divers outils d’IA générative

Soutien à la publication du jeu de données PRISM

Il est important de recueillir les retours de personnes diverses pour améliorer les LLM
- La communauté de recherche s’interroge sur les méthodes, les domaines et les objectifs du processus de feedback
- Meta soutient la publication du jeu de données PRISM, qui cartographie les données sociodémographiques et les préférences de 1 500 participants issus de 75 pays
- Le jeu de données relie les préférences et les retours détaillés de chaque personne à 8 011 conversations en temps réel avec 21 LLM
- L’objectif est d’encourager une participation plus large au développement de l’IA et une approche plus inclusive de la conception des technologies

Mesurer et améliorer les écarts géographiques des systèmes de génération texte-vers-image

Il est important que les modèles texte-vers-image fonctionnent bien pour tout le monde et reflètent la diversité géographique et culturelle du monde
- Développement d’un indicateur automatique appelé « DIG In » pour évaluer les écarts géographiques potentiels
- Plus de 65 000 annotations et plus de 20 réponses à des enquêtes ont été recueillies afin d’étudier la manière dont les personnes perçoivent la représentation géographique
- Les chercheurs ont constaté que les personnes s’appuient davantage sur des éléments spécifiques à l’intérieur de l’image que sur l’image dans son ensemble pour reconnaître une représentation géographique
- Sur cette base, ils explorent des moyens d’améliorer la diversité des sorties des modèles texte-vers-image
- Introduction de Contextualized Vendi Score guidance afin d’accroître la diversité des représentations dans les échantillons générés tout en maintenant la qualité d’image et la cohérence entre le prompt et la génération