Le co-auteur de l’article « Attention Is All You Need » affirme en avoir désormais « assez » des transformeurs
(venturebeat.com)- Llion Jones, qui a co-développé l’architecture des transformeurs et en a inventé le nom, affirme que « la recherche en IA est devenue trop étroite » et qu’il compte s’éloigner du paradigme centré sur les transformeurs
- Il propose une autocritique selon laquelle les transformeurs, technologie de base des grands systèmes d’IA comme ChatGPT et Claude, freineraient au contraire la prochaine vague d’innovation
- Il avertit que les chercheurs choisissent des sujets sûrs et ont perdu en créativité, estimant que le secteur est « davantage tourné vers l’exploitation que vers l’exploration », et qu’il pourrait ainsi passer à côté d’innovations majeures
- Il critique le fait qu’à l’époque de la naissance de l’article sur les transformeurs, il existait un environnement propice aux expérimentations libres, alors qu’aujourd’hui même des salaires très élevés ne garantissent plus la liberté de recherche
- Chez Sakana AI, il cherche à recréer une culture de recherche centrée sur l’exploration libre, en soulignant que « la prochaine innovation du niveau des transformeurs est peut-être juste à côté »
Autocritique du créateur des transformeurs et nouvelle déclaration
- Llion Jones, co-auteur de l’article de 2017 « Attention Is All You Need » et inventeur direct du terme “transformer”, a vivement critiqué à la conférence TED AI de San Francisco l’uniformisation de la recherche en IA
- Déclaration rare d’un auteur d’un article historique cité plus de 100 000 fois, qui affirme publiquement être « écœuré » par sa propre création
- Il est aujourd’hui CTO et cofondateur de Sakana AI, basé à Tokyo
- Il explique que la recherche en IA est enfermée dans une structure unique et dit vouloir consacrer moins de temps aux transformeurs pour explorer de nouvelles architectures
- Il souligne que « le domaine de l’IA n’a jamais eu autant de talents et de capitaux, et pourtant la recherche se rétrécit »
- Il attribue ce phénomène à la pression des investisseurs pour obtenir des retours et à l’intensification de la concurrence, expliquant que les chercheurs ont perdu en créativité dans un environnement où il faut « publier à toute vitesse »
Le paradoxe d’une abondance de ressources mais d’une baisse de créativité
- Les chercheurs en IA doivent aujourd’hui partir du principe que 3 ou 4 groupes travaillent simultanément sur le même sujet, et vérifier sans cesse si une autre équipe ne les a pas « devancés »
- Dans le monde académique, la tendance se renforce à choisir des sujets pouvant être publiés sans risque, plutôt que des projets risqués mais innovants
- Sous la pression concurrentielle, les articles sont soumis dans l’urgence, ce qui porte atteinte à la rigueur scientifique et réduit la créativité
- Les chercheurs privilégient l’« exploitation » au détriment de l’« exploration »
- Si l’on applique le concept du compromis exploration-exploitation des algorithmes d’IA, le secteur pourrait aujourd’hui être piégé dans un optimum local ordinaire à force de trop exploiter l’existant, en passant à côté de meilleures alternatives
- Tout comme avant l’arrivée des transformeurs, lorsque les chercheurs s’acharnaient sur des améliorations incrémentales des réseaux neuronaux récurrents (RNN), le risque existe aujourd’hui de manquer une innovation imminente en se concentrant uniquement sur des variantes d’une architecture unique
« Si les chercheurs d’avant l’ère des transformeurs avaient su que la prochaine innovation arrivait bientôt, ils n’auraient pas gaspillé autant de temps. »
Le contexte de naissance des transformeurs : une innovation née de la liberté
- Jones se souvient que la recherche ayant mené aux transformeurs est née dans une atmosphère libre, sans aucune pression venue d’en haut
- « C’était une idée née de discussions à l’heure du déjeuner ou de gribouillages sur un tableau blanc », explique-t-il
- L’équipe n’avait pas d’idée clairement définie, mais disposait de suffisamment de temps et de liberté, sans aucune pression managériale liée à un projet précis ou à des indicateurs de performance
- Aucune exigence concernant un certain nombre de publications ou l’amélioration d’indicateurs
- Possibilité d’explorer librement par l’expérimentation et les essais-erreurs
- Aujourd’hui, même des chercheurs recrutés avec des rémunérations annuelles supérieures à 1 million de dollars peuvent se sentir poussés à devoir prouver leur valeur plutôt qu’à tenter des idées audacieuses
« Ils choisissent des recherches sûres pour prouver qu’ils méritent leur place. »
L’expérience de Sakana AI : quand la liberté l’emporte sur les hautes rémunérations
- Chez Sakana AI, Jones tente de recréer l’environnement de recherche libre d’avant les transformeurs
- Poursuite de recherches inspirées de la nature
- Pression minimale concernant la publication d’articles ou la concurrence directe avec d’autres entreprises
- Il partage un conseil de l’ingénieur Brian Cheung : « Il faut uniquement mener des recherches qui n’existeraient pas si vous ne les faisiez pas. »
- Il présente comme exemple concret le projet de « continuous thought machine »
- Une recherche visant à intégrer des mécanismes de synchronisation du cerveau dans des réseaux neuronaux
- Il indique que son auteur aurait probablement reçu, dans son emploi précédent ou dans le monde académique, des réactions sceptiques et des injonctions à ne pas perdre son temps
- Chez Sakana, une semaine de temps d’exploration lui a été accordée, et cela a finalement débouché sur un cas de réussite remarqué à la grande conférence NeurIPS
- Il affirme que cet environnement exploratoire peut lui-même devenir un puissant outil de recrutement des talents
- Les personnes talentueuses et ambitieuses sont naturellement attirées par ce type d’environnement
Le paradoxe du succès des transformeurs : un degré d’aboutissement qui freine l’innovation
- Selon lui, le succès des transformeurs est « si puissant qu’il empêche paradoxalement l’émergence de nouvelles innovations »
- Il analyse que « plus la technologie actuelle semble parfaite, moins on est motivé à chercher quelque chose de meilleur »
- Il ne rejette pas pour autant la recherche sur les transformeurs, ajoutant qu’« elle peut encore créer de la valeur concrète »
- Mais il insiste sur le fait que « compte tenu des ressources et des talents immenses dont nous disposons aujourd’hui, nous pourrions explorer bien plus largement »
- Sa conclusion porte sur l’importance de la coopération et de l’exploration ouverte
- « Il faut augmenter le curseur de l’exploration par la coopération, pas par la concurrence. C’est ainsi que de vrais progrès deviennent possibles. »
Ce que dit le « problème de l’exploration » dans l’industrie de l’IA
- L’avertissement de Jones résonne fortement à un moment où l’on débat des limites de la mise à l’échelle de l’IA et de la nécessité d’explorer de nouvelles architectures
- Dans le secteur, l’idée se diffuse déjà que la seule extension des transformeurs atteint ses limites
- Des chercheurs de premier plan commencent à discuter publiquement des limites fondamentales du paradigme actuel
- L’idée progresse qu’au-delà de l’échelle, une innovation architecturale est nécessaire pour construire des systèmes d’IA plus avancés
- Alors que des dizaines de milliards de dollars sont investis chaque année dans le développement de l’IA et que la concurrence féroce entre laboratoires renforce le secret et l’accélération des cycles de publication, la recherche libre et exploratoire décrite par Jones devient de plus en plus rare
- La perspective d’initié de Jones a un poids particulier
- En tant que personne ayant directement créé la technologie qui domine aujourd’hui le domaine, il comprend bien les conditions nécessaires aux découvertes innovantes
- Sa décision de prendre lui-même ses distances avec les transformeurs qui ont fait sa réputation renforce la crédibilité de son message
- Le secteur se trouve à un tournant crucial : la prochaine innovation du niveau des transformeurs pourrait être découverte par des chercheurs ayant la liberté d’explorer, ou rester inexplorée pendant que des milliers de chercheurs rivalisent sur des améliorations incrémentales
- En conclusion, Jones, l’un de ceux qui ont étudié les transformeurs le plus longtemps, sait sans doute mieux que quiconque qu’il est temps de passer à l’étape suivante
« Une percée du niveau des transformeurs est peut-être déjà à notre portée, simplement cachée par la concurrence. »
1 commentaires
Commentaires Hacker News
À mes yeux, le transformer a été l’une des inventions les plus productives de l’histoire récente
En huit ans à peine depuis son apparition en 2017, il a complètement transformé de nombreux domaines, et a même contribué en partie à l’obtention d’un prix Nobel
Je pense que l’idée essentielle, au fond, est celle du modèle graphique probabiliste (probabilistic graphical model). L’approche qui combine les probabilités avec des séquences, des arbres et des graphes gardera selon moi une forte valeur de recherche à l’avenir
Le transformer est déjà un excellent approximateur universel (universal approximator). On pourra sans doute l’améliorer un peu, mais trouver quelque chose d’encore plus « universel » semble difficile en pratique
Je pense qu’il faut plutôt repenser les tâches auto-régressives, la perte d’entropie croisée (cross entropy loss) et la descente de gradient (gradient descent) elle-même
Il y a bien eu un impact dans mon domaine aussi, mais honnêtement, cet impact a été surtout négatif
Mais pour l’instant, je n’en vois pas encore les signes. Cela dit, j’ai de l’espoir
Je ne l’ai pas encore formalisé dans un article, mais je vois un peu partout des évolutions qui convergent vers cette idée
J’aimerais avoir plus d’heures dans une journée
Jones, cofondateur et CTO de Sakana AI, a dit qu’il prenait ses distances avec les transformers pour chercher « la prochaine grande chose », mais honnêtement, ça ressemble surtout à une opération de communication pour lever des fonds
Pour plaisanter, je pensais que la singularité (singularity) arriverait en 2024, mais j’ai l’impression qu’elle s’est arrêtée à cause du décalage entre la « monétisation » et l’« auto-amélioration »
J’ai l’impression qu’on va encore rester vingt ans à exploiter jusqu’au bout les modèles transformer
Comme elles ne sont pas réservées aux transformers, cela créera plutôt une incitation à trouver une nouvelle architecture capable d’exploiter au maximum cette infrastructure
C’est juste qu’elle n’est pas assez rapide pour que les humains la perçoivent
Pour la plupart des gens, « l’IA » n’est au fond qu’un produit logiciel visible
Mais le modèle central n’en représente qu’une partie, et tout le reste consiste à le peaufiner grâce au feedback humain fourni par des milliers de travailleurs faiblement rémunérés
En réalité, c’est 90 % de développement produit et 10 % de recherche en ML
La majorité des articles sont des travaux de carrière destinés à obtenir un doctorat, et les vraies recherches expérimentales sont rares
Le transformer est tellement bien adapté aux GPU qu’inventer un nouveau modèle signifie pratiquement devoir convaincre aussi les fabricants de matériel
Au final, il faut une évolution simultanée du matériel et du logiciel
Les changements fondamentaux se produiront sur des échelles de plusieurs décennies
Ce sont les algorithmes parallélisables qui sont intrinsèquement supérieurs, et les GPU ont évolué pour s’y adapter
Les RNN sont séquentiels et donc difficiles à paralléliser, alors que les transformers ont supprimé ce goulot d’étranglement
J’ai l’impression que la recherche non fondée sur les transformers reste très active
C’est juste qu’elle est moins visible, parce que l’argent afflue vers les CRM de type chatbot
Je ne pense pas qu’une nouvelle architecture soit la solution. Ce qui compte davantage, c’est d’améliorer l’efficacité des données
Ilya Sutskever a lui aussi insisté sur des méthodes d’apprentissage qui peuvent fonctionner « même sans l’Internet entier »
Si l’on veut apprendre comme les humains, il faudra faire autrement que simplement ingérer des données d’Internet
Le nombre de chercheurs a augmenté, mais la part des recherches non-transformer a probablement diminué
Quelqu’un a plaisanté en disant qu’il y avait trop de tirets cadratins (—) à la fin, au point qu’on dirait que ce texte a été écrit par un transformer
Les transformers ont aspiré toute l’attention et tout l’argent
Les chercheurs eux aussi ont été absorbés par l’industrie du transformer
J’ai l’impression que cela continuera jusqu’à ce qu’on bute sur une limite majeure
J’espère que la consommation d’énergie deviendra cette vraie limite et qu’elle fera évoluer la direction de la recherche
xAI a résolu ses besoins électriques en installant des turbines à gaz autour de son datacenter, mais cela a causé des problèmes de santé pour les riverains
Je pense que ce genre de méthode sera bientôt réglementé
Les gens ont tendance à être trop obsédés par les nouvelles innovations d’architecture de modèle
Un modèle n’est au fond qu’un outil qui produit une représentation compressée des données
Même avec une compression plus efficace, les capacités ne changent pas radicalement
Ce qui importe davantage, c’est d’améliorer l’efficacité de l’entraînement. Le reinforcement learning (RL) en est un bon exemple aujourd’hui
Explorer de nouvelles structures n’est pas une obsession excessive, c’est une façon de rétablir l’équilibre entre exploration et exploitation
Je me demande si la structure industrielle centrée sur les transformers ne s’est pas formée à cause de la commodité de calcul des GPU/NPU
Il existe peut-être une meilleure technologie d’IA, mais avec le matériel actuel, son coût de calcul pourrait être trop élevé
Notre cerveau ne consomme pas 500 watts, et c’est peut-être là un indice