Les employés de Google qui ont créé le transformer

(wired.com)

2 points par GN⁺ 2024-03-21 | 1 commentaires | Partager sur WhatsApp

En 2017, « Attention Is All You Need », signé par huit chercheurs de Google, a fait passer le traitement du langage d’une approche centrée sur les modèles séquentiels à l’architecture transformer, posant les bases de l’IA générative
Jakob Uszkoreit estimait que les LSTM risquaient de manquer des indices contextuels situés plus loin dans les longs textes, et a poussé comme alternative le self-attention, qui permet de se référer à l’ensemble de la phrase
Avec l’arrivée d’Illia Polosukhin, Ashish Vaswani, Niki Parmar, Llion Jones, Łukasz Kaiser, Aidan Gomez et Noam Shazeer, les expériences de traduction ont pris de l’ampleur ; après l’implémentation de Shazeer, le modèle Big a battu le record de traduction de l’anglais vers l’allemand
L’article a été soumis le 19 mai 2017, juste avant la clôture de NeurIPS ; après des avis mitigés, il a suscité un vif intérêt lors d’une session poster en décembre, et Google a déposé un brevet provisoire à des fins défensives
Les huit auteurs ont tous quitté Google, et, à l’exception de Near, des entreprises comme Character AI, Sakana AI, Essential AI, Cohere et Inceptive se sont développées sur la base de la technologie transformer

Le tournant provoqué par « Attention Is All You Need »

« Attention Is All You Need » est un article rédigé au printemps 2017 par des chercheurs de Google
- Les huit auteurs ont ajouté un astérisque à chacun de leurs noms et une note de bas de page indiquant « Equal contributor » et « Listing order is random » afin de ne pas établir d’ordre de contribution
Cet article a étendu l’IA fondée sur les réseaux de neurones à l’architecture transformer, devenue la structure centrale de produits d’IA générative comme ChatGPT, Dall-E et Midjourney
Geoffrey Hinton estime que, sans le transformer, nous ne serions pas parvenus à la situation actuelle
- Il faisait référence à la dynamique par laquelle OpenAI et d’autres entreprises créent des systèmes capables de rivaliser avec les productions humaines, voire dans certains cas de les dépasser
Les huit auteurs de l’article ont tous quitté Google, et travaillent chacun sur des systèmes liés à l’architecture qu’ils ont créée en 2017

Les origines de l’idée de self-attention

Le point de départ du transformer est l’idée de self-attention de Jakob Uszkoreit
- Après avoir travaillé dans le groupe Google Traduction, il a rejoint en 2012 une équipe chargée de créer un système répondant directement aux questions des utilisateurs sur la page de recherche Google
- À l’époque, Google considérait qu’Apple Siri pouvait menacer son trafic de recherche, et s’est donc davantage intéressé à ce domaine
Les modèles de langage de l’époque reposaient sur les recurrent neural networks et les LSTM, mais ils avaient des limites pour traiter les textes longs
- Dans la phrase d’exemple Joe is a baseball player... got two hits, comprendre « two hits » suppose de se souvenir de l’information précédente sur le baseball
- Les LSTM permettaient de traiter des séquences de texte plus longues et plus complexes, mais comme ils traitaient toujours les mots de manière séquentielle, ils pouvaient manquer des indices contextuels situés plus loin
Vers 2014, Uszkoreit a imaginé le self-attention
- Le self-attention permet, lors de la traduction d’un mot, de se référer à toutes les autres positions de la phrase
- Comme il ne consiste pas à parcourir les mots séquentiellement mais à examiner plusieurs entrées ensemble, en parallèle, il s’accordait bien avec les puces de traitement parallèle produites en masse pendant l’essor du machine learning
Cette approche, qui revenait à abandonner les architectures neuronales existantes, a été accueillie avec scepticisme
- Même Hans Uszkoreit, le père d’Uszkoreit, ne partageait pas cette intuition lors de leurs conversations à table
- Uszkoreit a mené de petites expériences sur du texte avec des collègues et publié un article en 2016, mais ses collaborateurs existants étaient davantage intéressés par son application à Google Search, à la publicité, etc.

Des arrivées fortuites et la formation de l’équipe « transformer »

En 2016, lors d’un déjeuner avec Illia Polosukhin dans un café de Google, Uszkoreit lui a proposé le self-attention
- Polosukhin estimait que, pour répondre directement sur Google.com, il fallait un système peu coûteux, performant et capable de répondre en quelques millisecondes
- Il collaborait avec Ashish Vaswani, et Vaswani, qui cherchait un grand projet chez Google Brain, a rejoint l’idée du self-attention
Les trois hommes ont rédigé un document de conception intitulé « Transformers: Iterative Self-Attention and Processing for Various Tasks »
- Le nom « transformers » a été utilisé dès le départ, avec l’idée d’un mécanisme transformant les informations d’entrée pour en extraire une compréhension comparable à celle d’un humain, ou du moins en donner l’impression
- Uszkoreit associait aussi ce nom au souvenir des jouets Transformer de Hasbro avec lesquels il avait joué enfant
Niki Parmar et Llion Jones ont ensuite rejoint l’équipe
- Après un master à l’USC, Parmar est entrée chez Google et a travaillé avec Uszkoreit sur une variante de modèle destinée à améliorer Google Search
- Jones était chez Google Research sous la responsabilité du manager de Polosukhin ; après avoir entendu parler du concept de self-attention par son collègue Mat Kelcey, il a rejoint l’équipe transformer
Łukasz Kaiser, de Google Brain, et le stagiaire Aidan Gomez se sont également joints à eux
- Gomez participait au groupe de machine learning de l’University of Toronto, où se trouve le laboratoire de Geoffrey Hinton, et a obtenu une opportunité de stage après avoir envoyé à Kaiser une idée d’extension d’un article connexe
- Kaiser et Gomez ont discuté de la possibilité de fusionner leur projet avec le projet self-attention, puis ont décidé de les réunir

Les expériences qui ont battu les records et la soumission de dernière minute

L’équipe a utilisé le modèle self-attention pour effectuer de la traduction automatique et mesurer ses performances avec le benchmark BLEU
- Les premiers modèles étaient au niveau des alternatives LSTM, mais pas meilleurs
- Quand Noam Shazeer a entendu parler du projet par hasard et l’a rejoint, la qualité de l’implémentation a fortement progressé
Shazeer a réimplémenté lui-même le code de l’équipe transformer
- Il était mal à l’aise avec les recurrent neural networks existants et a participé avec l’idée de les remplacer
- Les membres de l’équipe décrivaient son implémentation avec des termes comme « magic », « alchemy » et « bells and whistles » ; Uszkoreit estimait que pour donner vie à un mécanisme intuitif comme le self-attention, il fallait une petite poignée d’implémenteurs expérimentés
À l’approche de la date limite de soumission à NeurIPS 2017, le 19 mai, le rythme des expériences s’est accéléré
- L’équipe a testé un modèle transformer de base entraîné pendant 12 heures et un modèle Big plus puissant entraîné pendant trois jours et demi
- En traduction anglais-allemand, le modèle de base a devancé tous les concurrents, et Big a obtenu un score BLEU qui battait nettement le record existant, tout en offrant une meilleure efficacité de calcul
Pendant les deux semaines précédant l’échéance, l’équipe a travaillé intensément dans le Building 1965
- Par ablation, elle a retiré ou remplacé des modules et techniques pour vérifier lesquels étaient réellement nécessaires
- En corrigeant des bugs, comme des problèmes dus à un masking incorrect, les composants actuels du transformer ont été stabilisés au fil d’itérations expérimentales rapides
Le titre « Attention Is All You Need » a été proposé par Llion Jones, en référence à « All You Need Is Love » des Beatles
- Les résultats anglais-français sont arrivés cinq minutes avant la soumission, et l’article a été déposé deux minutes avant la clôture
- Google a rapidement déposé un brevet provisoire afin de constituer un portefeuille de brevets à des fins défensives

Google, OpenAI et les parcours ultérieurs des huit auteurs

Les évaluations de NeurIPS étaient mitigées : une positive, une très positive et une jugeant l’article « correct » ; l’article a été accepté pour une session poster en soirée
- La session de quatre heures du 6 décembre 2017 était bondée de scientifiques désireux d’en savoir plus
- Même à 22 h 30, l’heure de fin de session, des personnes étaient encore présentes, au point que les agents de sécurité ont dû leur demander de partir
- Pour Uszkoreit, voir Sepp Hochreiter, co-inventeur des LSTM, venir les féliciter pour leur travail a été un moment particulièrement satisfaisant
Le transformer n’a pas immédiatement dominé Google en interne ni le monde extérieur
- Vers la publication de l’article, Shazeer a proposé à la direction de Google d’abandonner l’ensemble de l’index de recherche et d’entraîner un immense réseau fondé sur les transformers
- Même Kaiser considérait alors cette proposition comme absurde
- OpenAI a avancé plus vite : après qu’Ilya Sutskever a suggéré à Alec Radford de travailler sur cette idée, le premier produit GPT est apparu
Google a commencé à intégrer le transformer dans ses produits à partir de 2018
- La première application a été son outil de traduction
- La même année, Google a lancé le modèle de langage fondé sur transformer BERT, puis a commencé à l’appliquer à la recherche l’année suivante
- À propos du fait que Google n’ait pas lancé en premier un grand modèle de langage comme ChatGPT, Sundar Pichai a déclaré qu’une fois que d’autres en avaient montré le fonctionnement, Google pouvait en faire davantage
Les huit auteurs de l’article ont tous quitté Google
- Noam Shazeer a cofondé Character AI, valorisée à environ 5 milliards de dollars
- Llion Jones a cofondé Sakana AI, basée à Tokyo, valorisée à 200 millions de dollars
- Inceptive, la biotech de Jakob Uszkoreit, est valorisée à 300 millions de dollars
- Near, d’Illia Polosukhin, développe une blockchain dont le token représente une capitalisation d’environ 4 milliards de dollars
- Niki Parmar et Ashish Vaswani ont lancé Adept en 2021, puis fondé Essential AI, qui a levé 8 millions de dollars
- Aidan Gomez a cofondé Cohere à Toronto en 2019, avec une valorisation estimée à 2,2 milliards de dollars
- Łukasz Kaiser n’a pas créé d’entreprise et a rejoint OpenAI ; il est l’un des inventeurs d’une nouvelle technologie appelée Q*
À l’exception de Near, leurs entreprises reposent sur la technologie transformer
- Google a créé un environnement dans lequel des idées non conventionnelles pouvaient être poursuivies, et tous les auteurs travaillaient dans le même bureau
- Les rencontres dans les couloirs et les conversations au déjeuner ont joué un rôle important
- Six des huit auteurs sont nés hors des États-Unis ; parmi les deux autres, l’un est né alors que ses parents allemands séjournaient temporairement en Californie, et l’autre est un Américain de première génération issu d’une famille ayant fui les persécutions
- Uszkoreit estime que l’innovation naît quand les bonnes conditions, les bonnes personnes au bon moment, le plaisir, le bon problème et la chance s’alignent

1 commentaires

GN⁺ 2024-03-21

Avis sur Hacker News

Plutôt que le modèle d’attention, l’attention existait déjà avant ces articles
Ce qu’ils ont fait, c’est surtout montrer qu’à elle seule, elle suffisait à prédire la séquence de mots suivante dans un contexte donné. En 2018, quand j’ai utilisé un framework similaire, il en est sorti un comportement très étrange mais amusant, et j’ai essayé de le résoudre, sans voir, contrairement à d’autres groupes, qu’il valait mieux augmenter l’échelle de calcul d’un algorithme simple. C’est agaçant de dire qu’un groupe a découvert et transformé l’IA en ignorant les autres. Ces chercheurs méritent des éloges, mais ils ont plutôt fait avancer l’IA moderne d’une manière intéressante qu’ils ne l’ont inventée. Même aujourd’hui, il existe un mouvement pour revenir à des approches plus déterministes, à des modèles du monde, à la mémoire, aux graphes, à la minimisation d’énergie ; le génératif est amusant et nous a beaucoup appris, mais il n’est pas encore écrit dans un article qu’il suffira de continuer à ajouter des puces pour résoudre l’AGI/SGI
- C’est une interprétation beaucoup trop mesquine et étrangement dépréciative. Donc peut-être parfaitement adaptée à HN
  L’état de l’art incroyable d’aujourd’hui n’existerait pas sans l’architecture Transformer. Si le Transformer n’avait été qu’un passager chanceux porté par l’échelle de calcul, l’application qui a bouleversé le monde aurait été ChatMLP ou ChatCNN, pas ChatGPT. Or ce n’est pas le cas, et en 2024 il n’existe toujours pas d’architecture réellement compétitive en traitement du langage naturel. Le Transformer est une idée vraiment profonde et étonnante, avec d’excellentes propriétés comme le parallélisme à l’entraînement. Avec le recul, il est facile de rabaisser GPT en le présentant comme une idée surtout dérivée, et un jour on appliquera le même révisionnisme à des choses comme les modèles à espace d’états qui remplaceront peut-être les Transformers. Bien sûr que GPT s’est construit sur des travaux antérieurs et que d’autres approches doivent aussi être reconnues. C’est ça, la science. Mais les personnes qui ont créé le Transformer méritent les éloges qu’on leur adresse dans cet article, et cela ne rabaisse pas tous les autres. Ces huit personnes ont changé le monde et méritent sincèrement d’être appréciées
- « Augmenter l’échelle de calcul d’un algorithme simple est préférable » : c’est encore une fois l’amère leçon qui s’applique
  http://www.incompleteideas.net/IncIdeas/BitterLesson.html
- Je pense qu’ils ont clairement changé l’IA, mais pas qu’ils ont inventé l’IA moderne
  Personnellement, je pense qu’il faudra à la fois de la puissance de calcul et des architectures de réseaux neuronaux pour se rapprocher de l’AGI
- J’étudie les neurosciences, mais je m’intéresse aussi beaucoup au fonctionnement de l’IA
  J’ai lu sur les anciennes approches, mais des expressions comme graphe de mémoire ou minimisation d’énergie sont nouvelles pour moi. Je serais curieux de connaître des articles ou billets récents à recommander à quelqu’un qui veut en apprendre davantage
- Un article sur des « ingénieurs de Google qui ont fait progresser l’IA de manière incrémentale » n’aurait probablement pas vendu beaucoup de publicité
Vers 2014, à l’âge d’or de Google, j’ai discuté avec Uszkoreit du rôle de son équipe de traitement du langage naturel à l’époque
Je lui ai demandé : « Que ferais-tu si tu avais un budget illimité ? » Il a simplement répondu : « C’est déjà le cas »
- Quand j’étais doctorant stagiaire, je partageais un bureau avec Uszkoreit, et j’ai toujours trouvé admirable qu’il ait abandonné son doctorat en cours de route
- Belle anecdote, mais l’âge d’or de Google était sans doute environ dix ans plus tôt. En 2014, le déclin avait déjà commencé
- Je travaillais sur Borg
  Le système de quotas peut s’appliquer à tout moment dès qu’on atteint une limite, et les GPU étaient répartis entre plusieurs cellules Borg, ce qui limitait le plafond. C’est pour cela que XBorg a été créé, afin de permettre aux chercheurs de rechercher globalement dans toutes les cellules Borg. Les dépenses d’investissement des datacenters tournent autour de 5 milliards de dollars par an, et Google génère chaque année des centaines de milliards de dollars de chiffre d’affaires. Demander ce qu’on ferait dans la situation impossible d’un budget illimité revient un peu à demander « que ferais-tu après ta mort ? ». Une fois mort, on ne peut littéralement rien faire. Dans ce contexte, il était difficile de comprendre ce que signifiait « c’est déjà le cas », et c’était ma réaction directe à l’hypothèse d’un budget illimité
- C’était une époque amusante. Ça fait plaisir de revoir ça après si longtemps, et quand je repense à ce que nous faisions alors, c’est étonnant de voir jusqu’où la technologie est arrivée
« Réalistement, GPT-3, voire GPT-3.5, aurait pu sortir dès 2019, peut-être 2020. La grande question n’est pas de savoir s’ils l’ont vu, mais pourquoi nous l’avons vu sans rien faire. La réponse est délicate »
La réponse, c’est que les entreprises monopolistiques étouffent l’innovation technologique. Leur activité de recherche déjà bien installée, centrée sur la publicité, risquait de perdre des revenus publicitaires face aux chatbots émergents. C’est comparable à un consortium détenu par des investisseurs qui regrouperait une compagnie d’électricité, des centrales au gaz et des producteurs de gaz de schiste. Le département électricité voudrait-il installer massivement des panneaux solaires et couper les ventes de gaz naturel qu’il réalisait auprès des services publics ? Bien sûr que non. C’est un bon argument en faveur d’un démantèlement antitrust d’Alphabet à la manière de Ma Bell
- Un meilleur exemple est Kodak, qui a inventé le premier appareil photo numérique en 1975 mais a tué le projet parce qu’il menaçait son activité de pellicules chimiques
- Je connaissais les détails de cette affaire. Sundar a empêché l’équipe NEMA, qui avait créé un produit du niveau de GPT-3 sous forme de personnage, de le présenter à I/O
  Sundar avait peur de cette technologie et de la réaction du public, et voulait l’enterrer
- À l’inverse, le fait qu’Alphabet n’ait pas pu déployer GPT-3 ou GPT-3.5 a créé la possibilité qu’elle se fasse elle-même disrupter, donc une action antitrust n’est peut-être pas nécessaire
- Honnêtement, c’est l’une des raisons pour lesquelles je pense que Google ne sera plus une entreprise dominante dans dix ans
  Chercher des informations sur le Web permettait de résoudre beaucoup de tâches utiles, mais désormais ChatGPT, Claude et d’autres font mieux pour la plupart d’entre elles. Gemini existe, certes, mais Google pourra-t-il un jour gagner de l’argent avec la recherche Gemini tout en acceptant de perdre les revenus publicitaires de recherche de ses produits existants ? La façon d’insérer de la publicité dans une interface de grand modèle de langage reste un problème non résolu. Google ressemble parfois à un vieux journal de l’ère Internet. Le modèle de la publicité Web aussi a mis du temps à s’installer
Il est assez étrange que Google ne soit pas l’OpenAI d’aujourd’hui. L’entreprise avait pourtant très tôt DeepMind et une armée de docteurs
- La façon de discuter avec les grands modèles de langage perturbe extrêmement le modèle économique de Google, et il est difficile d’en faire un produit sans tuer la poule aux œufs d’or
- Au final, j’y vois la preuve que le timing fait tout
  Dans les années 2010, le deep learning était encore en train de comprendre comment exploiter les GPU. L’échelle de calcul nécessaire après GPT-2 aurait été presque impossible en 2017/2018. Même dans les cours d’Udacity, on parlait de quelques heures sur un GPU K80. Ce n’est que vers 2020 qu’il est devenu possible de mobiliser des ressources de calcul absurdes à une échelle suffisante pour tester l’hypothèse du passage à l’échelle. L’essor des grands modèles de langage est aussi une histoire de progrès des GPU, autant que d’algorithmes, ce qui illustre clairement la leçon amère
- Il faudrait préciser davantage ce qu’est l’OpenAI d’aujourd’hui. Google est une entreprise valorisée en milliers de milliards de dollars avec des activités variées, tandis qu’OpenAI est une société qui vend l’accès à de grands modèles génératifs
- Pour devenir OpenAI, Google devrait beaucoup dégringoler
- Avant l’intervention de Microsoft, il existait dans une certaine mesure, au sein de la communauté IA, une règle tacite consistant à collaborer publiquement tout en ne rendant pas certains modèles accessibles au grand public
Cette conversation entre Geoffrey Hinton et Fei-Fei Li couvre une bonne partie de cette histoire. Elle dure 1 h 50
https://www.youtube.com/watch?v=QWWgr2rN45o
https://www.youtube.com/watch?v=E14IsFbAbpI
Elle aborde le parcours de recherche de Hinton, les raisons pour lesquelles il a pris cette direction, ainsi que les efforts de Li sur ImageNet
« Les auteurs étaient non seulement tous employés de Google, mais travaillaient aussi dans le même bureau »
Ça ressemble un peu à une promotion subtile du retour au bureau. Un mélange de collaboration en présentiel et de longues plages de concentration profonde sans interruption est sans doute la meilleure technique pour innover
- Les « longues plages de concentration profonde sans interruption » sont généralement impossibles dans un bureau
  Donc, en pratique, on est plutôt sur un modèle hybride, et toutes les personnes raisonnables le disent
- Après avoir travaillé à distance pendant deux ans, je suis revenu au bureau dans une nouvelle équipe, et quand on veut vraiment terminer quelque chose rapidement, ça change la vie
- Ce n’est pas vraiment subtil
- « Bureau » ne signifie pas forcément open space
  Ce n’est pas pour rien que les universitaires ont des bureaux individuels avec une porte. Je déteste vraiment les open spaces, mais un bureau individuel dans un bâtiment où se trouvent d’autres personnes, c’est excellent
« Six des huit sont nés hors des États-Unis, et les deux autres sont respectivement l’enfant de parents allemands résidents permanents temporairement en Californie, et un Américain de première génération issu d’une famille ayant fui les persécutions »
Je pense que les États-Unis ont beaucoup de choses à corriger, mais il n’y a que les États-Unis où une telle chose est possible sur cette planète. C’est un fait
- C’est difficile à soutenir. Au contraire, les États-Unis rendent la vie très difficile même aux immigrés qualifiés qui viennent y travailler
  Il existe beaucoup de pays, comme Singapour, l’Australie, l’Allemagne ou le Canada, où la proportion de résidents nés à l’étranger est plus élevée qu’aux États-Unis. Quand je travaillais autrefois chez Google UK, mon équipe était composée à 100 % d’ingénieurs nés à l’étranger venus de tous les continents
- D’accord. Pour avoir vécu ou travaillé en Asie, en Europe et aux États-Unis, les groupes de collègues les plus diversifiés que j’ai connus étaient toujours aux États-Unis
C’est assez génial que les employés de Google puissent voir dans cs/ la première implémentation du Transformer et les commentaires des reviewers
Tant de moments historiques de l’IA sont conservés ainsi sur l’intranet de Google
Passage frappant
« Six des huit sont nés hors des États-Unis, et les deux autres sont respectivement l’enfant de parents allemands résidents permanents temporairement en Californie, et un Américain de première génération issu d’une famille ayant fui les persécutions »
- Ce qui est encore plus intéressant, c’est qu’un seul d’entre eux a fait son premier cycle dans une université américaine prestigieuse, Duke
  Les autres ont fait leur premier cycle en Inde, en Ukraine, en Allemagne ou au Canada, et l’University of Toronto a un taux d’admission de 43 %
- Je ne vois pas vraiment pourquoi ce serait frappant, surtout aux États-Unis
  Ce serait peut-être une observation intéressante dans un pays qui accueille moins les immigrés que les États-Unis, comme la Chine ou le Japon
- Exact. C’est l’une des caractéristiques réellement admirables des États-Unis, et en particulier de California
  Si California est l’une des plus grandes économies du monde, c’est parce qu’elle attire et accueille des personnes venues de presque toutes les régions du globe

Les employés de Google qui ont créé le transformer

Le tournant provoqué par « Attention Is All You Need »

Les origines de l’idée de self-attention

Des arrivées fortuites et la formation de l’équipe « transformer »

Les expériences qui ont battu les records et la soumission de dernière minute

Google, OpenAI et les parcours ultérieurs des huit auteurs

À lire aussi

1 commentaires

Avis sur Hacker News