LANISTR : un nouveau framework pour apprendre à partir de données structurées et non structurées
(research.google)• LANISTR est un nouveau framework qui permet l’apprentissage multimodal en ingérant des données non structurées (images, texte) et structurées (séries temporelles, tableaux), en effectuant leur alignement et leur fusion, puis en générant des prédictions.
• Il s’attaque notamment à des problèmes tels que le surapprentissage et une généralisation sous-optimale lors de l’entraînement sur des jeux de données de taille limitée, ainsi qu’au problème des modalités manquantes dans les données multimodales comportant deux modalités ou plus.
• L’architecture de LANISTR se compose d’encodeurs spécifiques à chaque modalité et d’un module encodeur-décodeur multimodal jouant le rôle de mécanisme de fusion, utilisant l’attention croisée pour capturer les relations intermodales.
• Le cœur de la méthodologie LANISTR repose sur un entraînement basé sur le masquage, appliqué à la fois aux niveaux unimodal et multimodal, avec deux types d’objectifs de préentraînement : des objectifs de masquage unimodal et une perte de masquage multimodal fondée sur la similarité.
• LANISTR atteint des résultats de pointe sur plusieurs tâches difficiles, surpassant des baselines concurrentes à la fois sur le jeu de données médical MIMIC-IV et sur les données d’avis Amazon.
• Il montre l’importance d’apprendre à partir de données structurées et non structurées en utilisant conjointement des données étiquetées et non étiquetées, ainsi que sa capacité à ingérer activement toutes les modalités telles quelles, à exploiter de grands volumes de données non étiquetées pendant le préentraînement non supervisé et à gérer de manière fluide les modalités manquantes.
• LANISTR présente des applications potentielles dans divers domaines, notamment le diagnostic médical et la prévision de la demande dans le retail.
Aucun commentaire pour le moment.