des transformeurs

(venturebeat.com)

11 points par GN⁺ 2025-10-25 | 1 commentaires | Partager sur WhatsApp

Llion Jones, qui a co-développé l’architecture des transformeurs et en a inventé le nom, affirme que « la recherche en IA est devenue trop étroite » et qu’il compte s’éloigner du paradigme centré sur les transformeurs
Il propose une autocritique selon laquelle les transformeurs, technologie de base des grands systèmes d’IA comme ChatGPT et Claude, freineraient au contraire la prochaine vague d’innovation
Il avertit que les chercheurs choisissent des sujets sûrs et ont perdu en créativité, estimant que le secteur est « davantage tourné vers l’exploitation que vers l’exploration », et qu’il pourrait ainsi passer à côté d’innovations majeures
Il critique le fait qu’à l’époque de la naissance de l’article sur les transformeurs, il existait un environnement propice aux expérimentations libres, alors qu’aujourd’hui même des salaires très élevés ne garantissent plus la liberté de recherche
Chez Sakana AI, il cherche à recréer une culture de recherche centrée sur l’exploration libre, en soulignant que « la prochaine innovation du niveau des transformeurs est peut-être juste à côté »

Autocritique du créateur des transformeurs et nouvelle déclaration

Llion Jones, co-auteur de l’article de 2017 « Attention Is All You Need » et inventeur direct du terme “transformer”, a vivement critiqué à la conférence TED AI de San Francisco l’uniformisation de la recherche en IA
Déclaration rare d’un auteur d’un article historique cité plus de 100 000 fois, qui affirme publiquement être « écœuré » par sa propre création
Il est aujourd’hui CTO et cofondateur de Sakana AI, basé à Tokyo
- Il explique que la recherche en IA est enfermée dans une structure unique et dit vouloir consacrer moins de temps aux transformeurs pour explorer de nouvelles architectures
- Il souligne que « le domaine de l’IA n’a jamais eu autant de talents et de capitaux, et pourtant la recherche se rétrécit »
- Il attribue ce phénomène à la pression des investisseurs pour obtenir des retours et à l’intensification de la concurrence, expliquant que les chercheurs ont perdu en créativité dans un environnement où il faut « publier à toute vitesse »

Le paradoxe d’une abondance de ressources mais d’une baisse de créativité

Les chercheurs en IA doivent aujourd’hui partir du principe que 3 ou 4 groupes travaillent simultanément sur le même sujet, et vérifier sans cesse si une autre équipe ne les a pas « devancés »
Dans le monde académique, la tendance se renforce à choisir des sujets pouvant être publiés sans risque, plutôt que des projets risqués mais innovants
- Sous la pression concurrentielle, les articles sont soumis dans l’urgence, ce qui porte atteinte à la rigueur scientifique et réduit la créativité
- Les chercheurs privilégient l’« exploitation » au détriment de l’« exploration »
Si l’on applique le concept du compromis exploration-exploitation des algorithmes d’IA, le secteur pourrait aujourd’hui être piégé dans un optimum local ordinaire à force de trop exploiter l’existant, en passant à côté de meilleures alternatives
Tout comme avant l’arrivée des transformeurs, lorsque les chercheurs s’acharnaient sur des améliorations incrémentales des réseaux neuronaux récurrents (RNN), le risque existe aujourd’hui de manquer une innovation imminente en se concentrant uniquement sur des variantes d’une architecture unique

« Si les chercheurs d’avant l’ère des transformeurs avaient su que la prochaine innovation arrivait bientôt, ils n’auraient pas gaspillé autant de temps. »

Le contexte de naissance des transformeurs : une innovation née de la liberté

Jones se souvient que la recherche ayant mené aux transformeurs est née dans une atmosphère libre, sans aucune pression venue d’en haut
- « C’était une idée née de discussions à l’heure du déjeuner ou de gribouillages sur un tableau blanc », explique-t-il
L’équipe n’avait pas d’idée clairement définie, mais disposait de suffisamment de temps et de liberté, sans aucune pression managériale liée à un projet précis ou à des indicateurs de performance
- Aucune exigence concernant un certain nombre de publications ou l’amélioration d’indicateurs
- Possibilité d’explorer librement par l’expérimentation et les essais-erreurs
Aujourd’hui, même des chercheurs recrutés avec des rémunérations annuelles supérieures à 1 million de dollars peuvent se sentir poussés à devoir prouver leur valeur plutôt qu’à tenter des idées audacieuses

« Ils choisissent des recherches sûres pour prouver qu’ils méritent leur place. »

L’expérience de Sakana AI : quand la liberté l’emporte sur les hautes rémunérations

Chez Sakana AI, Jones tente de recréer l’environnement de recherche libre d’avant les transformeurs
- Poursuite de recherches inspirées de la nature
- Pression minimale concernant la publication d’articles ou la concurrence directe avec d’autres entreprises
Il partage un conseil de l’ingénieur Brian Cheung : « Il faut uniquement mener des recherches qui n’existeraient pas si vous ne les faisiez pas. »
Il présente comme exemple concret le projet de « continuous thought machine »
- Une recherche visant à intégrer des mécanismes de synchronisation du cerveau dans des réseaux neuronaux
- Il indique que son auteur aurait probablement reçu, dans son emploi précédent ou dans le monde académique, des réactions sceptiques et des injonctions à ne pas perdre son temps
- Chez Sakana, une semaine de temps d’exploration lui a été accordée, et cela a finalement débouché sur un cas de réussite remarqué à la grande conférence NeurIPS
Il affirme que cet environnement exploratoire peut lui-même devenir un puissant outil de recrutement des talents
- Les personnes talentueuses et ambitieuses sont naturellement attirées par ce type d’environnement

Le paradoxe du succès des transformeurs : un degré d’aboutissement qui freine l’innovation

Selon lui, le succès des transformeurs est « si puissant qu’il empêche paradoxalement l’émergence de nouvelles innovations »
Il analyse que « plus la technologie actuelle semble parfaite, moins on est motivé à chercher quelque chose de meilleur »
Il ne rejette pas pour autant la recherche sur les transformeurs, ajoutant qu’« elle peut encore créer de la valeur concrète »
Mais il insiste sur le fait que « compte tenu des ressources et des talents immenses dont nous disposons aujourd’hui, nous pourrions explorer bien plus largement »
Sa conclusion porte sur l’importance de la coopération et de l’exploration ouverte
- « Il faut augmenter le curseur de l’exploration par la coopération, pas par la concurrence. C’est ainsi que de vrais progrès deviennent possibles. »

Ce que dit le « problème de l’exploration » dans l’industrie de l’IA

L’avertissement de Jones résonne fortement à un moment où l’on débat des limites de la mise à l’échelle de l’IA et de la nécessité d’explorer de nouvelles architectures
Dans le secteur, l’idée se diffuse déjà que la seule extension des transformeurs atteint ses limites
Des chercheurs de premier plan commencent à discuter publiquement des limites fondamentales du paradigme actuel
- L’idée progresse qu’au-delà de l’échelle, une innovation architecturale est nécessaire pour construire des systèmes d’IA plus avancés
Alors que des dizaines de milliards de dollars sont investis chaque année dans le développement de l’IA et que la concurrence féroce entre laboratoires renforce le secret et l’accélération des cycles de publication, la recherche libre et exploratoire décrite par Jones devient de plus en plus rare
La perspective d’initié de Jones a un poids particulier
- En tant que personne ayant directement créé la technologie qui domine aujourd’hui le domaine, il comprend bien les conditions nécessaires aux découvertes innovantes
- Sa décision de prendre lui-même ses distances avec les transformeurs qui ont fait sa réputation renforce la crédibilité de son message
Le secteur se trouve à un tournant crucial : la prochaine innovation du niveau des transformeurs pourrait être découverte par des chercheurs ayant la liberté d’explorer, ou rester inexplorée pendant que des milliers de chercheurs rivalisent sur des améliorations incrémentales
En conclusion, Jones, l’un de ceux qui ont étudié les transformeurs le plus longtemps, sait sans doute mieux que quiconque qu’il est temps de passer à l’étape suivante

« Une percée du niveau des transformeurs est peut-être déjà à notre portée, simplement cachée par la concurrence. »

1 commentaires

GN⁺ 2025-10-25

Commentaires Hacker News

À mes yeux, le transformer a été l’une des inventions les plus productives de l’histoire récente
En huit ans à peine depuis son apparition en 2017, il a complètement transformé de nombreux domaines, et a même contribué en partie à l’obtention d’un prix Nobel
Je pense que l’idée essentielle, au fond, est celle du modèle graphique probabiliste (probabilistic graphical model). L’approche qui combine les probabilités avec des séquences, des arbres et des graphes gardera selon moi une forte valeur de recherche à l’avenir
- Pour être honnête, je ne pense pas qu’il y aura une grande percée au niveau de l’architecture elle-même
  Le transformer est déjà un excellent approximateur universel (universal approximator). On pourra sans doute l’améliorer un peu, mais trouver quelque chose d’encore plus « universel » semble difficile en pratique
  Je pense qu’il faut plutôt repenser les tâches auto-régressives, la perte d’entropie croisée (cross entropy loss) et la descente de gradient (gradient descent) elle-même
- Je me demande quels domaines ont été complètement transformés
  Il y a bien eu un impact dans mon domaine aussi, mais honnêtement, cet impact a été surtout négatif
- En tant que personne ayant beaucoup utilisé les modèles graphiques probabilistes auparavant, j’espère que mon expérience redeviendra utile à l’ère des transformers
  Mais pour l’instant, je n’en vois pas encore les signes. Cela dit, j’ai de l’espoir
- J’ai moi aussi imaginé un modèle probabiliste d’hypergraphe
  Je ne l’ai pas encore formalisé dans un article, mais je vois un peu partout des évolutions qui convergent vers cette idée
  J’aimerais avoir plus d’heures dans une journée
- D’accord. Je pense que l’inférence causale (causal inference) et le raisonnement symbolique (symbolic reasoning) sont justement les vrais enjeux de l’après-transformer
Jones, cofondateur et CTO de Sakana AI, a dit qu’il prenait ses distances avec les transformers pour chercher « la prochaine grande chose », mais honnêtement, ça ressemble surtout à une opération de communication pour lever des fonds
- « Attention is all he needs » lui va parfaitement
- Cela dit, s’il veut faire quelque chose de nouveau, il lui faut des financements, donc les deux peuvent être vrais
- Un scientifique est par nature quelqu’un qui cherche sans cesse quelque chose de nouveau et créatif
- Quoi qu’il en soit, ses propos ont bel et bien attiré notre attention
- Mais au fait, je me demande bien ce qu’ils essaient de vendre en ce moment
Pour plaisanter, je pensais que la singularité (singularity) arriverait en 2024, mais j’ai l’impression qu’elle s’est arrêtée à cause du décalage entre la « monétisation » et l’« auto-amélioration »
J’ai l’impression qu’on va encore rester vingt ans à exploiter jusqu’au bout les modèles transformer
- En ce moment, les infrastructures matérielles et énergétiques sont en pleine expansion
  Comme elles ne sont pas réservées aux transformers, cela créera plutôt une incitation à trouver une nouvelle architecture capable d’exploiter au maximum cette infrastructure
- Peut-être que l’auto-amélioration récursive (recursive self-improvement) est déjà en cours
  C’est juste qu’elle n’est pas assez rapide pour que les humains la perçoivent
Pour la plupart des gens, « l’IA » n’est au fond qu’un produit logiciel visible
Mais le modèle central n’en représente qu’une partie, et tout le reste consiste à le peaufiner grâce au feedback humain fourni par des milliers de travailleurs faiblement rémunérés
En réalité, c’est 90 % de développement produit et 10 % de recherche en ML
La majorité des articles sont des travaux de carrière destinés à obtenir un doctorat, et les vraies recherches expérimentales sont rares
Le transformer est tellement bien adapté aux GPU qu’inventer un nouveau modèle signifie pratiquement devoir convaincre aussi les fabricants de matériel
Au final, il faut une évolution simultanée du matériel et du logiciel
Les changements fondamentaux se produiront sur des échelles de plusieurs décennies
- Mais c’est prendre le problème à l’envers
  Ce sont les algorithmes parallélisables qui sont intrinsèquement supérieurs, et les GPU ont évolué pour s’y adapter
  Les RNN sont séquentiels et donc difficiles à paralléliser, alors que les transformers ont supprimé ce goulot d’étranglement
J’ai l’impression que la recherche non fondée sur les transformers reste très active
C’est juste qu’elle est moins visible, parce que l’argent afflue vers les CRM de type chatbot
Je ne pense pas qu’une nouvelle architecture soit la solution. Ce qui compte davantage, c’est d’améliorer l’efficacité des données
Ilya Sutskever a lui aussi insisté sur des méthodes d’apprentissage qui peuvent fonctionner « même sans l’Internet entier »
- Ce que dit l’article, ce n’est pas que « une nouvelle architecture est la solution », mais que l’équilibre entre exploration et exploitation s’est rompu
- Le débat sur une nouvelle architecture concerne en réalité l’AGI
  Si l’on veut apprendre comme les humains, il faudra faire autrement que simplement ingérer des données d’Internet
- La plupart des chercheurs d’avant 2017 se concentrent désormais sur les transformers
  Le nombre de chercheurs a augmenté, mais la part des recherches non-transformer a probablement diminué
Quelqu’un a plaisanté en disant qu’il y avait trop de tirets cadratins (—) à la fin, au point qu’on dirait que ce texte a été écrit par un transformer
- La prochaine mode de l’IA sera peut-être les « disrupters »
Les transformers ont aspiré toute l’attention et tout l’argent
Les chercheurs eux aussi ont été absorbés par l’industrie du transformer
J’ai l’impression que cela continuera jusqu’à ce qu’on bute sur une limite majeure
J’espère que la consommation d’énergie deviendra cette vraie limite et qu’elle fera évoluer la direction de la recherche
- En réalité, l’énergie pourrait bientôt devenir le goulot d’étranglement
  xAI a résolu ses besoins électriques en installant des turbines à gaz autour de son datacenter, mais cela a causé des problèmes de santé pour les riverains
  Je pense que ce genre de méthode sera bientôt réglementé
Les gens ont tendance à être trop obsédés par les nouvelles innovations d’architecture de modèle
Un modèle n’est au fond qu’un outil qui produit une représentation compressée des données
Même avec une compression plus efficace, les capacités ne changent pas radicalement
Ce qui importe davantage, c’est d’améliorer l’efficacité de l’entraînement. Le reinforcement learning (RL) en est un bon exemple aujourd’hui
- Mais l’efficacité de l’entraînement est au final liée à l’architecture
  Explorer de nouvelles structures n’est pas une obsession excessive, c’est une façon de rétablir l’équilibre entre exploration et exploitation
Je me demande si la structure industrielle centrée sur les transformers ne s’est pas formée à cause de la commodité de calcul des GPU/NPU
Il existe peut-être une meilleure technologie d’IA, mais avec le matériel actuel, son coût de calcul pourrait être trop élevé
Notre cerveau ne consomme pas 500 watts, et c’est peut-être là un indice

Le co-auteur de l’article « Attention Is All You Need » affirme en avoir désormais « assez » des transformeurs

Autocritique du créateur des transformeurs et nouvelle déclaration

Le paradoxe d’une abondance de ressources mais d’une baisse de créativité

Le contexte de naissance des transformeurs : une innovation née de la liberté

L’expérience de Sakana AI : quand la liberté l’emporte sur les hautes rémunérations

Le paradoxe du succès des transformeurs : un degré d’aboutissement qui freine l’innovation

Ce que dit le « problème de l’exploration » dans l’industrie de l’IA

À lire aussi

1 commentaires

Commentaires Hacker News