11 points par GN⁺ 2025-10-25 | 1 commentaires | Partager sur WhatsApp
  • Llion Jones, qui a co-développé l’architecture des transformeurs et en a inventé le nom, affirme que « la recherche en IA est devenue trop étroite » et qu’il compte s’éloigner du paradigme centré sur les transformeurs
  • Il propose une autocritique selon laquelle les transformeurs, technologie de base des grands systèmes d’IA comme ChatGPT et Claude, freineraient au contraire la prochaine vague d’innovation
  • Il avertit que les chercheurs choisissent des sujets sûrs et ont perdu en créativité, estimant que le secteur est « davantage tourné vers l’exploitation que vers l’exploration », et qu’il pourrait ainsi passer à côté d’innovations majeures
  • Il critique le fait qu’à l’époque de la naissance de l’article sur les transformeurs, il existait un environnement propice aux expérimentations libres, alors qu’aujourd’hui même des salaires très élevés ne garantissent plus la liberté de recherche
  • Chez Sakana AI, il cherche à recréer une culture de recherche centrée sur l’exploration libre, en soulignant que « la prochaine innovation du niveau des transformeurs est peut-être juste à côté »

Autocritique du créateur des transformeurs et nouvelle déclaration

  • Llion Jones, co-auteur de l’article de 2017 « Attention Is All You Need » et inventeur direct du terme “transformer”, a vivement critiqué à la conférence TED AI de San Francisco l’uniformisation de la recherche en IA
  • Déclaration rare d’un auteur d’un article historique cité plus de 100 000 fois, qui affirme publiquement être « écœuré » par sa propre création
  • Il est aujourd’hui CTO et cofondateur de Sakana AI, basé à Tokyo
    • Il explique que la recherche en IA est enfermée dans une structure unique et dit vouloir consacrer moins de temps aux transformeurs pour explorer de nouvelles architectures
    • Il souligne que « le domaine de l’IA n’a jamais eu autant de talents et de capitaux, et pourtant la recherche se rétrécit »
    • Il attribue ce phénomène à la pression des investisseurs pour obtenir des retours et à l’intensification de la concurrence, expliquant que les chercheurs ont perdu en créativité dans un environnement où il faut « publier à toute vitesse »

Le paradoxe d’une abondance de ressources mais d’une baisse de créativité

  • Les chercheurs en IA doivent aujourd’hui partir du principe que 3 ou 4 groupes travaillent simultanément sur le même sujet, et vérifier sans cesse si une autre équipe ne les a pas « devancés »
  • Dans le monde académique, la tendance se renforce à choisir des sujets pouvant être publiés sans risque, plutôt que des projets risqués mais innovants
    • Sous la pression concurrentielle, les articles sont soumis dans l’urgence, ce qui porte atteinte à la rigueur scientifique et réduit la créativité
    • Les chercheurs privilégient l’« exploitation » au détriment de l’« exploration »
  • Si l’on applique le concept du compromis exploration-exploitation des algorithmes d’IA, le secteur pourrait aujourd’hui être piégé dans un optimum local ordinaire à force de trop exploiter l’existant, en passant à côté de meilleures alternatives
  • Tout comme avant l’arrivée des transformeurs, lorsque les chercheurs s’acharnaient sur des améliorations incrémentales des réseaux neuronaux récurrents (RNN), le risque existe aujourd’hui de manquer une innovation imminente en se concentrant uniquement sur des variantes d’une architecture unique

« Si les chercheurs d’avant l’ère des transformeurs avaient su que la prochaine innovation arrivait bientôt, ils n’auraient pas gaspillé autant de temps. »

Le contexte de naissance des transformeurs : une innovation née de la liberté

  • Jones se souvient que la recherche ayant mené aux transformeurs est née dans une atmosphère libre, sans aucune pression venue d’en haut
    • « C’était une idée née de discussions à l’heure du déjeuner ou de gribouillages sur un tableau blanc », explique-t-il
  • L’équipe n’avait pas d’idée clairement définie, mais disposait de suffisamment de temps et de liberté, sans aucune pression managériale liée à un projet précis ou à des indicateurs de performance
    • Aucune exigence concernant un certain nombre de publications ou l’amélioration d’indicateurs
    • Possibilité d’explorer librement par l’expérimentation et les essais-erreurs
  • Aujourd’hui, même des chercheurs recrutés avec des rémunérations annuelles supérieures à 1 million de dollars peuvent se sentir poussés à devoir prouver leur valeur plutôt qu’à tenter des idées audacieuses

« Ils choisissent des recherches sûres pour prouver qu’ils méritent leur place. »

L’expérience de Sakana AI : quand la liberté l’emporte sur les hautes rémunérations

  • Chez Sakana AI, Jones tente de recréer l’environnement de recherche libre d’avant les transformeurs
    • Poursuite de recherches inspirées de la nature
    • Pression minimale concernant la publication d’articles ou la concurrence directe avec d’autres entreprises
  • Il partage un conseil de l’ingénieur Brian Cheung : « Il faut uniquement mener des recherches qui n’existeraient pas si vous ne les faisiez pas. »
  • Il présente comme exemple concret le projet de « continuous thought machine »
    • Une recherche visant à intégrer des mécanismes de synchronisation du cerveau dans des réseaux neuronaux
    • Il indique que son auteur aurait probablement reçu, dans son emploi précédent ou dans le monde académique, des réactions sceptiques et des injonctions à ne pas perdre son temps
    • Chez Sakana, une semaine de temps d’exploration lui a été accordée, et cela a finalement débouché sur un cas de réussite remarqué à la grande conférence NeurIPS
  • Il affirme que cet environnement exploratoire peut lui-même devenir un puissant outil de recrutement des talents
    • Les personnes talentueuses et ambitieuses sont naturellement attirées par ce type d’environnement

Le paradoxe du succès des transformeurs : un degré d’aboutissement qui freine l’innovation

  • Selon lui, le succès des transformeurs est « si puissant qu’il empêche paradoxalement l’émergence de nouvelles innovations »
  • Il analyse que « plus la technologie actuelle semble parfaite, moins on est motivé à chercher quelque chose de meilleur »
  • Il ne rejette pas pour autant la recherche sur les transformeurs, ajoutant qu’« elle peut encore créer de la valeur concrète »
  • Mais il insiste sur le fait que « compte tenu des ressources et des talents immenses dont nous disposons aujourd’hui, nous pourrions explorer bien plus largement »
  • Sa conclusion porte sur l’importance de la coopération et de l’exploration ouverte
    • « Il faut augmenter le curseur de l’exploration par la coopération, pas par la concurrence. C’est ainsi que de vrais progrès deviennent possibles. »

Ce que dit le « problème de l’exploration » dans l’industrie de l’IA

  • L’avertissement de Jones résonne fortement à un moment où l’on débat des limites de la mise à l’échelle de l’IA et de la nécessité d’explorer de nouvelles architectures
  • Dans le secteur, l’idée se diffuse déjà que la seule extension des transformeurs atteint ses limites
  • Des chercheurs de premier plan commencent à discuter publiquement des limites fondamentales du paradigme actuel
    • L’idée progresse qu’au-delà de l’échelle, une innovation architecturale est nécessaire pour construire des systèmes d’IA plus avancés
  • Alors que des dizaines de milliards de dollars sont investis chaque année dans le développement de l’IA et que la concurrence féroce entre laboratoires renforce le secret et l’accélération des cycles de publication, la recherche libre et exploratoire décrite par Jones devient de plus en plus rare
  • La perspective d’initié de Jones a un poids particulier
    • En tant que personne ayant directement créé la technologie qui domine aujourd’hui le domaine, il comprend bien les conditions nécessaires aux découvertes innovantes
    • Sa décision de prendre lui-même ses distances avec les transformeurs qui ont fait sa réputation renforce la crédibilité de son message
  • Le secteur se trouve à un tournant crucial : la prochaine innovation du niveau des transformeurs pourrait être découverte par des chercheurs ayant la liberté d’explorer, ou rester inexplorée pendant que des milliers de chercheurs rivalisent sur des améliorations incrémentales
  • En conclusion, Jones, l’un de ceux qui ont étudié les transformeurs le plus longtemps, sait sans doute mieux que quiconque qu’il est temps de passer à l’étape suivante

« Une percée du niveau des transformeurs est peut-être déjà à notre portée, simplement cachée par la concurrence. »

1 commentaires

 
GN⁺ 2025-10-25
Commentaires Hacker News
  • À mes yeux, le transformer a été l’une des inventions les plus productives de l’histoire récente
    En huit ans à peine depuis son apparition en 2017, il a complètement transformé de nombreux domaines, et a même contribué en partie à l’obtention d’un prix Nobel
    Je pense que l’idée essentielle, au fond, est celle du modèle graphique probabiliste (probabilistic graphical model). L’approche qui combine les probabilités avec des séquences, des arbres et des graphes gardera selon moi une forte valeur de recherche à l’avenir

    • Pour être honnête, je ne pense pas qu’il y aura une grande percée au niveau de l’architecture elle-même
      Le transformer est déjà un excellent approximateur universel (universal approximator). On pourra sans doute l’améliorer un peu, mais trouver quelque chose d’encore plus « universel » semble difficile en pratique
      Je pense qu’il faut plutôt repenser les tâches auto-régressives, la perte d’entropie croisée (cross entropy loss) et la descente de gradient (gradient descent) elle-même
    • Je me demande quels domaines ont été complètement transformés
      Il y a bien eu un impact dans mon domaine aussi, mais honnêtement, cet impact a été surtout négatif
    • En tant que personne ayant beaucoup utilisé les modèles graphiques probabilistes auparavant, j’espère que mon expérience redeviendra utile à l’ère des transformers
      Mais pour l’instant, je n’en vois pas encore les signes. Cela dit, j’ai de l’espoir
    • J’ai moi aussi imaginé un modèle probabiliste d’hypergraphe
      Je ne l’ai pas encore formalisé dans un article, mais je vois un peu partout des évolutions qui convergent vers cette idée
      J’aimerais avoir plus d’heures dans une journée
    • D’accord. Je pense que l’inférence causale (causal inference) et le raisonnement symbolique (symbolic reasoning) sont justement les vrais enjeux de l’après-transformer
  • Jones, cofondateur et CTO de Sakana AI, a dit qu’il prenait ses distances avec les transformers pour chercher « la prochaine grande chose », mais honnêtement, ça ressemble surtout à une opération de communication pour lever des fonds

    • « Attention is all he needs » lui va parfaitement
    • Cela dit, s’il veut faire quelque chose de nouveau, il lui faut des financements, donc les deux peuvent être vrais
    • Un scientifique est par nature quelqu’un qui cherche sans cesse quelque chose de nouveau et créatif
    • Quoi qu’il en soit, ses propos ont bel et bien attiré notre attention
    • Mais au fait, je me demande bien ce qu’ils essaient de vendre en ce moment
  • Pour plaisanter, je pensais que la singularité (singularity) arriverait en 2024, mais j’ai l’impression qu’elle s’est arrêtée à cause du décalage entre la « monétisation » et l’« auto-amélioration »
    J’ai l’impression qu’on va encore rester vingt ans à exploiter jusqu’au bout les modèles transformer

    • En ce moment, les infrastructures matérielles et énergétiques sont en pleine expansion
      Comme elles ne sont pas réservées aux transformers, cela créera plutôt une incitation à trouver une nouvelle architecture capable d’exploiter au maximum cette infrastructure
    • Peut-être que l’auto-amélioration récursive (recursive self-improvement) est déjà en cours
      C’est juste qu’elle n’est pas assez rapide pour que les humains la perçoivent
  • Pour la plupart des gens, « l’IA » n’est au fond qu’un produit logiciel visible
    Mais le modèle central n’en représente qu’une partie, et tout le reste consiste à le peaufiner grâce au feedback humain fourni par des milliers de travailleurs faiblement rémunérés
    En réalité, c’est 90 % de développement produit et 10 % de recherche en ML
    La majorité des articles sont des travaux de carrière destinés à obtenir un doctorat, et les vraies recherches expérimentales sont rares

  • Le transformer est tellement bien adapté aux GPU qu’inventer un nouveau modèle signifie pratiquement devoir convaincre aussi les fabricants de matériel
    Au final, il faut une évolution simultanée du matériel et du logiciel
    Les changements fondamentaux se produiront sur des échelles de plusieurs décennies

    • Mais c’est prendre le problème à l’envers
      Ce sont les algorithmes parallélisables qui sont intrinsèquement supérieurs, et les GPU ont évolué pour s’y adapter
      Les RNN sont séquentiels et donc difficiles à paralléliser, alors que les transformers ont supprimé ce goulot d’étranglement
  • J’ai l’impression que la recherche non fondée sur les transformers reste très active
    C’est juste qu’elle est moins visible, parce que l’argent afflue vers les CRM de type chatbot
    Je ne pense pas qu’une nouvelle architecture soit la solution. Ce qui compte davantage, c’est d’améliorer l’efficacité des données
    Ilya Sutskever a lui aussi insisté sur des méthodes d’apprentissage qui peuvent fonctionner « même sans l’Internet entier »

    • Ce que dit l’article, ce n’est pas que « une nouvelle architecture est la solution », mais que l’équilibre entre exploration et exploitation s’est rompu
    • Le débat sur une nouvelle architecture concerne en réalité l’AGI
      Si l’on veut apprendre comme les humains, il faudra faire autrement que simplement ingérer des données d’Internet
    • La plupart des chercheurs d’avant 2017 se concentrent désormais sur les transformers
      Le nombre de chercheurs a augmenté, mais la part des recherches non-transformer a probablement diminué
  • Quelqu’un a plaisanté en disant qu’il y avait trop de tirets cadratins (—) à la fin, au point qu’on dirait que ce texte a été écrit par un transformer

    • La prochaine mode de l’IA sera peut-être les « disrupters »
  • Les transformers ont aspiré toute l’attention et tout l’argent
    Les chercheurs eux aussi ont été absorbés par l’industrie du transformer
    J’ai l’impression que cela continuera jusqu’à ce qu’on bute sur une limite majeure
    J’espère que la consommation d’énergie deviendra cette vraie limite et qu’elle fera évoluer la direction de la recherche

    • En réalité, l’énergie pourrait bientôt devenir le goulot d’étranglement
      xAI a résolu ses besoins électriques en installant des turbines à gaz autour de son datacenter, mais cela a causé des problèmes de santé pour les riverains
      Je pense que ce genre de méthode sera bientôt réglementé
  • Les gens ont tendance à être trop obsédés par les nouvelles innovations d’architecture de modèle
    Un modèle n’est au fond qu’un outil qui produit une représentation compressée des données
    Même avec une compression plus efficace, les capacités ne changent pas radicalement
    Ce qui importe davantage, c’est d’améliorer l’efficacité de l’entraînement. Le reinforcement learning (RL) en est un bon exemple aujourd’hui

    • Mais l’efficacité de l’entraînement est au final liée à l’architecture
      Explorer de nouvelles structures n’est pas une obsession excessive, c’est une façon de rétablir l’équilibre entre exploration et exploitation
  • Je me demande si la structure industrielle centrée sur les transformers ne s’est pas formée à cause de la commodité de calcul des GPU/NPU
    Il existe peut-être une meilleure technologie d’IA, mais avec le matériel actuel, son coût de calcul pourrait être trop élevé
    Notre cerveau ne consomme pas 500 watts, et c’est peut-être là un indice