Ce que l’IA multimodale peut faire au-delà de la génération d’images

(blog.naver.com)

12 points par ironlung 2022-09-22 | Aucun commentaire pour le moment. | Partager sur WhatsApp

L’IA multimodale peut, au-delà de la génération d’images, compléter des images inachevées, prédire la prochaine réplique dans une vidéo, effectuer des recherches combinant texte et image, traduire des mangas, prédire le risque de cancer et détecter les discours haineux.

Compléter des images inachevées

Nüwa, développé par Microsoft Research Asia et l’université de Pékin, a présenté cette fonctionnalité.
Lorsqu’on lui fournit une image inachevée, il la complète automatiquement.
Si on lui donne un croquis, il génère une image ou une vidéo correspondante.
Il peut aussi prédire et montrer la scène suivante d’une vidéo.

Prédire la prochaine réplique dans une vidéo

Un modèle développé par Google Research prédit la prochaine réplique lorsqu’on lui fournit une scène vidéo et la transcription des paroles du locuteur.
La vidéo et le texte servent de « contexte » pour prévoir ce que dira le locuteur.

Recherche texte + image

MUM, développé par Google, peut comprendre une image envoyée par l’utilisateur dans la barre de recherche — par exemple une photo de chaussures de randonnée — puis relier cette image à une question comme « Puis-je utiliser ces chaussures pour gravir le mont Fuji ? », afin d’indiquer que ces chaussures conviendraient probablement à la randonnée.
Il peut aussi proposer des blogs contenant des listes d’équipement recommandé.

Traduction de mangas

Le « framework de traduction multimodale avec compréhension du contexte », présenté par des chercheurs de l’université de Tokyo et de l’entreprise japonaise de traduction automatique Mantra, peut traduire des mangas dans d’autres langues en prenant en compte à la fois les illustrations et les dialogues.
Il extrait des informations contextuelles à partir d’images de manga japonais, comme les scènes, l’ordre de lecture des dialogues et les informations visuelles.
Il utilise ensuite ces informations pour traduire du japonais vers l’anglais les dialogues contenus dans les bulles.

Prédire le risque de développer un cancer

Une IA multimodale développée par des chercheurs du Brigham and Women’s Hospital de la faculté de médecine de Harvard peut prédire la probabilité de développer un cancer à partir d’images de tissus cellulaires et de données génomiques textuelles.
Les chercheurs ont entraîné deux modèles distincts à partir de microphotographies de tissus cellulaires et de données génomiques textuelles.
Les deux modèles ont ensuite été intégrés dans un système unique pour prédire si « le patient présente un risque élevé ou faible de développer plusieurs types de cancer ».

Apprendre l’« image » d’un objet donné pour reconnaître les « données 3D » ou la « vidéo » du même objet

Omnivore, présenté par Meta, peut reconnaître un modèle 3D de citrouille alors qu’il n’a appris qu’à partir d’images de citrouille.
De même, il peut reconnaître des vidéos de yacht alors qu’il n’a appris qu’à partir d’images de yacht.

Détecter les discours haineux

L’IA multimodale peut aussi aider à détecter les discours haineux dans des publications sur les réseaux sociaux en prenant en compte à la fois les images et le texte.
Les discours haineux peuvent également prendre la forme de mèmes combinant image et texte.
Meta explique que, pour que « l’IA reconnaisse si un mème est haineux ou non », il faut prendre en compte à la fois l’image du mème et son contenu textuel.
Un mème montrant une photo de désert vide avec la phrase « Regarde combien de personnes t’aiment » est subtilement agressif.
Pour que l’IA découvre le véritable sens d’un mème contenant un discours haineux, elle doit analyser le mème dans son ensemble.
Elle doit combiner l’image et le texte, et comprendre comment le sens change lorsqu’ils apparaissent ensemble.
On s’attend à ce que l’IA multimodale assure cette fonction en traitant simultanément l’image et le texte.
Meta estime que sa capacité à comprendre de manière globale le contenu des publications sur les réseaux sociaux afin d’identifier les discours haineux évoluera grâce à l’IA multimodale.
Meta a constitué et partagé le dataset « Hateful Memes », qui aide au développement de systèmes capables d’identifier les discours haineux multimodaux.

Ce que l’IA multimodale peut faire au-delà de la génération d’images

À lire aussi

Aucun commentaire pour le moment.