Jeff Dean : les dernières tendances du machine learning [vidéo]

(youtube.com)

25 points par GN⁺ 2024-02-21 | 3 commentaires | Partager sur WhatsApp

Jeff Dean (Google) : tendances intéressantes du machine learning

Tendances marquantes et attentes autour de l’apprentissage automatique

Le machine learning a profondément changé ces dernières années nos attentes quant à ce que les ordinateurs peuvent faire.
Dans tous les domaines, qu’il s’agisse du langage, des images ou du traitement du langage naturel, les ordinateurs ont acquis une meilleure capacité à percevoir et comprendre le monde.
Les progrès des technologies permettant aux ordinateurs de voir et de détecter ont ouvert de nombreuses opportunités dans presque tous les domaines de l’activité humaine.
Les avancées des ressources de calcul à grande échelle et des ordinateurs spécialisés offrent de meilleurs résultats et ont ouvert de nouvelles possibilités.
Nous avons besoin de formes de matériel plus variées, capables de fonctionner avec une grande efficacité tout en affinant plus efficacement l’éventail de ce que les ordinateurs peuvent faire.

Progrès de la reconnaissance vocale, de la traduction et de l’analyse d’images, avec une meilleure précision des prédictions

La reconnaissance vocale consiste à convertir une forme d’onde audio en parole significative sur environ 5 secondes, et les progrès dans ce domaine sont considérables.
Les technologies de traduction évoluent pour devenir une fonction très utile, permettant à l’ordinateur de traduire d’une langue à une autre.
Les technologies d’analyse d’images ont beaucoup progressé en computer vision, au point de transformer non seulement des noms d’étiquettes, mais aussi des scènes entières en courtes phrases descriptives.
De plus, il est devenu possible, ces dernières années, d’utiliser ces technologies en sens inverse.
Il est remarquable de constater qu’en dix ans, les performances se sont améliorées au point de dépasser la précision humaine.

Importance du scaling matériel pour améliorer la qualité des modèles d’IA

Le Word Error Rate, benchmark représentatif pour mesurer la précision de la reconnaissance vocale, est passé de 13,25 % à 2,5 %.
Cela a considérablement amélioré l’utilisabilité, au point de rendre ces systèmes suffisamment fiables pour rédiger des e-mails ou faire de la dictée.
En particulier, le scale-up du matériel aide à améliorer la qualité des modèles, ce qui nécessite du matériel optimisé pour le machine learning.
Les modèles de neural network ont la particularité de pouvoir utiliser une précision réduite sans problème, ce qui permet un entraînement plus efficace.
En outre, les algorithmes utilisés pour l’entraînement des modèles sont composés de diverses combinaisons d’opérations d’algèbre linéaire ; il faut donc des ordinateurs capables de traiter efficacement des opérations d’algèbre linéaire à précision réduite.

Progrès des réseaux informatiques et passion pour les modèles de langage

La première génération reposait sur un réseau simple mais à large bande passante. Chaque puce était connectée en grille 2D, sur une grille 16x6, avec 4 puces voisines reliées par des fils.
Cela évitait d’avoir à faire du routage dans le réseau et, grâce aux courtes distances entre les puces, permettait une bande passante élevée et des connexions peu coûteuses.
La génération suivante est passée à 1024 puces sur 8 racks, puis la suivante à 64 racks utilisant chacun 64 puces.
Plus récemment, la série V5 est apparue ; le modèle V5P, destiné à l’inférence distribuée avec 256 puces, offre davantage de mémoire par puce, une bande passante plus élevée et une meilleure bande passante mémoire.
Ce modèle offre, en performances en virgule flottante 16 bits, près d’un demi-pétaflop par puce, et en xAI flops, il peut être estimé à environ 9 000 puces par puce.
Parmi tous les domaines où l’informatique évolue le plus fortement, le langage est l’un des plus transformés. Après avoir évoqué les progrès en image et en reconnaissance vocale, il rappelle que l’intérêt pour les modèles de langage existait déjà avant les réseaux NN. C’est pourquoi ils ont collaboré avec l’équipe Google Traduction pour faire avancer la recherche sur les modèles de langage.

Construire un système de traduction de haute qualité avec de très grands volumes de données et des techniques simples

Ils ont cherché à faire passer en production un système de traduction de haute qualité initialement développé pour une compétition scientifique.
Ils ont construit un système qui calcule, sur 2 000 milliards de tokens, la fréquence d’apparition de séquences de 5 mots et stocke en mémoire 300 milliards de 5-grams uniques.
Pour les données absentes, ils ont développé un nouvel algorithme, stupid backoff, qui s’appuie sur les 4-grams, 3-grams, etc. précédents.
La leçon retenue est que des techniques simples, combinées à d’énormes volumes de données, peuvent produire des résultats efficaces.

Représenter les mots sous forme de vecteurs de grande dimension pour rapprocher les mots de contexte similaire et éloigner les autres

Au lieu de représenter les mots de manière discrète, ils les représentent sous forme de vecteurs de grande dimension, en rapprochant les mots qui apparaissent dans des contextes similaires et en éloignant ceux qui apparaissent dans des contextes différents.
À l’aide de très grandes quantités de données et d’un processus d’entraînement, les mots apparaissant dans des contextes similaires sont rapprochés, ceux des contextes différents sont éloignés, ce qui permet de regrouper spatialement les mots similaires.
Les représentations distribuées encodent beaucoup d’informations dans un vecteur à 100 dimensions représentant un mot, et c’est sur cette base qu’a été développé le modèle de traduction sequence-to-sequence learning.
Le sequence-to-sequence learning utilise des réseaux de neurones pour traiter les phrases une par une, construire la phrase, mettre à jour la représentation distribuée de chaque mot et produire le résultat de traduction.

Utiliser les modèles pour la traduction en langage naturel et les dialogues multi-tours

Les données d’entraînement contiennent des phrases en anglais et leurs équivalents en français, et le modèle est entraîné à partir de ces données.
Le modèle est construit pour traduire une phrase anglaise d’entrée en phrase française.
Pour les dialogues multi-tours, le modèle est entraîné à produire une réponse appropriée en utilisant un contexte composé des interactions précédentes.
Le modèle Transformer traite l’entrée en parallèle et améliore la précision de la traduction en se concentrant sur chaque partie.
Aujourd’hui, grâce aux progrès des algorithmes et du matériel de machine learning, il est possible d’entraîner des modèles de plus grande taille et de générer des réponses plus efficacement.

Développement d’un modèle conversationnel multimodal capable de traiter sans distinction différentes modalités

Il a évoqué les progrès des modèles conversationnels neuronaux comme Meena d’OpenAI, ChatGPT et Bard de Google.
Il a également mentionné l’évolution des modèles de langage, ainsi que les travaux d’OpenAI sur GPT2 et de Google sur T5. Le nombre de paramètres de ces modèles augmente fortement.
Il a parlé des progrès du Transformer, utilisé comme base de ces travaux.
Il a évoqué GPT3, GPT-4 d’OpenAI ainsi que le projet Gemini de Google. Le projet Gemini vise à développer un modèle capable de traiter simultanément non seulement du texte, mais aussi des images, de l’audio et d’autres modalités.
Le projet Gemini traite texte, image, vidéo et audio comme une seule séquence et entraîne le modèle sur une base Transformer. Cela permet de construire une représentation cohérente entre différentes modalités.

Infrastructure d’entraînement TensorFlow, produits Gemini de différentes tailles et système de récupération automatique

Gemini de TensorFlow est proposé en trois tailles : Ultra, Pro et Nano, chaque modèle étant adapté à des usages ou à des environnements différents.
Gemini fournit une fabric très scalable pour l’entraînement des modèles, avec un réseau haute performance et un système de récupération automatique.
Pour minimiser les failures détectés, les mises à niveau sont exécutées simultanément dans un environnement multinœud ; l’état des autres copies est restauré via un réseau rapide, ce qui permet de ramener le temps de récupération à quelques secondes.
Le modèle est entraîné sur des données variées, notamment des documents web, des livres, du code, des images, de l’audio et de la vidéo.
La composition finale des données d’entraînement est déterminée à partir d’expériences sur de petits modèles et d’évaluations de performance, en utilisant divers indicateurs pour trouver le meilleur mélange de données.

La qualité des données est importante et doit être prise en compte. Elle compte davantage que l’architecture du modèle.

En fin d’entraînement, des données liées au domaine sont utilisées pour ajouter des données multilingues.
Des données de haute qualité font une grande différence dans les performances d’un modèle.
La capacité à apprendre automatiquement un curriculum est l’un des domaines de recherche du futur.
Des recherches sont également en cours sur les moyens de poser des questions pour que le modèle réponde plus efficacement, ainsi que sur les méthodes permettant d’exploiter au maximum ses points forts.
L’utilisation de la technique de prompting chain of thought permet au modèle de considérer davantage d’étapes et de fournir des réponses plus précises.

Découvrir les résultats de l’évaluation des modèles et de l’analyse des performances

Le modèle présente comme exemple un cas où un étudiant a produit une mauvaise réponse et pointe les éléments qui doivent être corrigés.
Le modèle a été évalué sur 32 benchmarks académiques, et Gemini Ultra a montré des résultats dépassant les performances attendues précédemment sur 30 de ces benchmarks.
Ce modèle prend aussi en compte les performances multilingues et réfléchit à des trade-offs complexes.
Il se distingue également par sa compréhension vidéo et ses capacités multimodales, obtenant d’excellents résultats sur divers benchmarks.

Le modèle Gemini affiche d’excellentes performances en reconnaissance vocale et en multilingue, et peut même faire de la programmation comme chatbot

Le modèle Gemini a montré des taux d’erreur de tout premier plan sur différents critères de reconnaissance vocale, et ses capacités multilingues sont également excellentes.
L’équipe a consacré beaucoup d’efforts à l’évaluation du modèle et à la compréhension détaillée de ses capacités.
Il a été très impressionnant de constater que le modèle Gemini pouvait aussi fournir des informations utiles et du code de programmation.
Il possède également des connaissances sur les TPU et est présenté comme offrant une excellente efficacité ainsi que de meilleures performances.
Le modèle Gemini peut adopter différentes personnalités de chatbot ; parmi elles, Bard se positionne comme un ami serviable qui aide à répondre aux questions, et ce modèle est connu pour avoir atteint un score ELO élevé sur le site LMY.

Utilisation des modèles d’IA et entraînement par domaine

Il existe différents modèles, certains étant proposés sous forme de service gratuit figurant dans les classements, tandis que d’autres sont payants.
Gemini fournit sous forme de tableau le calcul du nombre d’entreprises par million d’habitants pour l’Angleterre, les États-Unis, la Corée du Sud, Taïwan et Singapour.
Le chiffre de l’Angleterre est le plus élevé, et l’interprétation fournie classe ensuite les pays dans l’ordre suivant : États-Unis, Corée du Sud, Taïwan, Singapour.
Chaque information est collectée à partir de sources diverses, et les chiffres réels peuvent légèrement varier selon la définition exacte retenue.
En entraînant les modèles d’IA par domaine, on peut obtenir des résultats spécialisés sur des problèmes spécifiques.

Brève explication des modèles génératifs qui produisent des images et des vidéos

Cette vidéo donne une brève explication des modèles génératifs capables de créer des images et des vidéos.
Parmi les projets de recherche associés figurent Party et Imagine ; pour construire des modèles générant des images visuelles, ils utilisent une entrée textuelle afin de produire une image donnée.
Par exemple, lorsqu’on donne au modèle une consigne textuelle demandant de créer une nouvelle image, il l’interprète puis génère une image réelle.
Ces modèles génératifs créent des images à partir de descriptions d’objets et de représentations textuelles des pixels.
Cette approche permet de générer des images correspondant au texte souhaité.

Les progrès des fonctions d’image apportent plus de confort aux utilisateurs de smartphones

Lorsqu’on entraîne plusieurs modèles d’analyse d’images avec des paramètres différents, les résultats varient selon l’échelle.
Les fonctions photo des smartphones se sont encore améliorées grâce à la combinaison de la photographie computationnelle et du machine learning.
Des fonctions comme le mode photo, le mode nuit, l’accentuation des couleurs et la réponse automatique en conversation permettent des transformations en temps réel et l’extraction de texte.
Ces fonctions prennent en compte le contexte de l’utilisateur afin de fournir des transformations et des réponses qui peuvent sembler presque impossibles.
Elles offrent des avantages révolutionnaires dans des contextes de faible littératie, comme la transmission d’images nettes ou la traduction multilingue.

Utilisation du machine learning dans la science des matériaux et le domaine médical

Dans la science des matériaux, le machine learning influence déjà divers aspects, notamment la création de simulateurs rapides.
Le machine learning offre un fort potentiel pour explorer les matériaux possibles et identifier ceux qui possèdent certaines propriétés.
Dans le domaine médical, il est aussi utilisé pour le diagnostic à partir d’images médicales, permettant par exemple de détecter tôt la rétinopathie diabétique.
Grâce à l’analyse d’imagerie médicale, il devient possible de trier les patients même dans des régions manquant de médecins, et les modèles d’IA peuvent atteindre une efficacité comparable à celle de spécialistes.

Pendant que le machine learning et l’informatique transforment le monde, des principes sur l’usage du machine learning et la responsabilité

Dépistage rapide à l’aide de GPU et diagnostic dermatologique à partir de photos
Présentation de principes d’application du machine learning concernant l’élimination des biais injustes, l’interprétabilité des modèles, la prise en compte de la vie privée et l’intérêt social
Des recherches sont toujours en cours sur les biais, la vie privée, la sécurité et d’autres sujets connexes
Avec les progrès du machine learning et du calcul, on peut s’attendre à des conversations et interactions naturelles avec les utilisateurs, ainsi qu’à des ordinateurs capables de comprendre et générer différents types d’informations
Il faut accueillir le potentiel de ces technologies tout en gardant un sens des responsabilités envers la société

À travers les questions posées, discussion sur l’importance des données et les besoins des clients

Il partage quelques questions représentatives reçues via Slido.
Dans le domaine des données, des données de haute qualité et une plus grande capacité de modèle peuvent améliorer les performances.
Mais il faut tenir compte à la fois de la qualité des données et de la taille du modèle. Des données de faible qualité peuvent nuire, par exemple, à la capacité du modèle à résoudre des problèmes mathématiques.
L’apprentissage à partir de grandes quantités de données vidéo n’a pas encore eu lieu à grande échelle, et comprendre le monde via des données visuelles et vocales, en plus du langage, sera différent d’un apprentissage fondé uniquement sur le langage.
Globalement, l’épuisement des données n’a pas encore eu lieu, et il reste encore de nombreuses possibilités de progrès.

Les modèles multimodaux sont-ils plus performants que les modèles ciblés pour chaque domaine ?

Dans certains cas, les modèles multimodaux peuvent être plus performants.
Plus on augmente le nombre de modalités, plus les performances sur d’autres modalités ont tendance à s’améliorer.
Lorsqu’un dataset ciblé est collecté pour un problème étroit, les performances sur ce problème peuvent être plus élevées.
Mais lorsque le problème est complexe ou qu’il est difficile de collecter des données spécialisées, un modèle doté de connaissances variées devient nécessaire.
Comme il est difficile pour les personnes disposant de peu de ressources d’entraîner de grands modèles, cela ouvre de nombreux sujets de recherche en machine learning.

Recherche sur les modèles avec des GPU et importance des différentes modalités de données

Avec un seul GPU ou un petit nombre de GPU, il est possible de mener des recherches sur l’évaluation de la qualité des données, l’évaluation automatique, l’apprentissage de curriculum en ligne et les méthodes d’optimisation.
La recherche sur les Transformers a été menée sur 8 GPU. Les LLM et les modèles sequence-to-sequence ont également été étudiés avec 8 GPU.
Des interrogations ont été soulevées sur la question de savoir si les LLM et les Transformers résument tout, et sur le rôle que peuvent encore jouer d’autres types de modèles dans le domaine du machine learning.
Il est préoccupant que l’absence de progrès marquants sur d’autres idées puisse conduire à écarter des approches moins spécifiées ou moins explorées.
Il est jugé important de traiter diverses modalités, non seulement le visuel, l’audio et le langage, mais aussi d’autres modalités comme les données de capteurs de battements cardiaques en médecine.

3 commentaires

everfrost314 2024-02-21

La moitié de la vidéo parle de Gemini, haha.

xguru 2024-02-21

Le contenu de la vidéo a été résumé par Lilys.AI.

https://lilys.ai/digest/297050/…

iyeti 2024-02-21

Merci… xguru l’avait déjà préparé, donc j’ai vu le résultat en une seconde… ^^

Jeff Dean : les dernières tendances du machine learning [vidéo]

À lire aussi

3 commentaires