Ilya Sutskever : nous passons de l’ère du scaling à l’ère de la recherche

(dwarkesh.com)

7 points par GN⁺ 2025-11-26 | 1 commentaires | Partager sur WhatsApp

Il souligne les limites de généralisation des modèles d’IA et le biais d’un entraînement centré sur l’apprentissage par renforcement (RL), en expliquant pourquoi les systèmes actuels ne parviennent pas à raisonner avec la souplesse des humains
Le pré-entraînement (pre-training) permet d’acquérir des connaissances naturelles à partir de vastes volumes de données, mais il est jugé insuffisant en matière d’adaptation au monde réel
Il estime que l’ère du scaling (2012~2025) touche à sa fin, et qu’il faut désormais de nouveaux principes d’apprentissage et une innovation centrée sur la recherche
SSI vise des modèles dotés de capacités d’apprentissage de niveau humain en combinant apprentissage continu (continual learning) et apprentissage via le déploiement dans le monde réel
Dans la perspective où l’IA doit intégrer « émotions et fonction de valeur », « capacité de généralisation » et « alignement éthique », il esquisse la direction future de la recherche en IA

Instabilité des modèles et problème de généralisation

Les modèles d’IA actuels excellent dans les évaluations (evals), mais présentent une « irrégularité » (jaggedness) marquée, avec des erreurs répétées en conditions réelles
- Exemple cité : lorsqu’on demande de corriger du code, ils peuvent réparer un bug puis en réintroduire un autre
Il analyse que l’entraînement RL est trop fortement ajusté à certains indicateurs d’évaluation, ce qui entraîne une baisse de la capacité de généralisation
En comparaison de l’apprentissage humain, il compare ces modèles à un « étudiant en programmation compétitive » suradapté à certains problèmes, mais peu efficace dans les applications réelles

Émotions et fonction de valeur (Value Function)

Le système émotionnel humain joue un rôle clé dans la prise de décision, et peut être interprété comme l’équivalent biologique d’une fonction de valeur
À travers des cas d’êtres humains privés d’émotions, il souligne que les émotions sont un élément indispensable à un jugement efficace et à l’apprentissage
L’apprentissage par renforcement actuel dépend uniquement de la récompense finale, alors que la fonction de valeur permet un feedback à des étapes intermédiaires, améliorant ainsi l’efficacité de l’apprentissage
Il suggère que l’IA de demain devra intégrer une architecture de fonction de valeur capable de régulation émotionnelle

De l’ère du scaling à l’ère de la recherche

Il distingue la période 2012~2020 comme une phase de progrès centrée sur la recherche, et 2020~2025 comme une phase de progrès centrée sur le scaling
Le simple accroissement des données, des paramètres et du compute a atteint ses limites, et il faut désormais explorer de nouvelles recettes d’apprentissage
Le RL a émergé comme un nouvel axe de scaling, mais l’utilisation efficace des ressources et de nouveaux principes d’apprentissage sont les défis clés de la prochaine étape
Avec la déclaration « c’est à nouveau l’ère de la recherche », il insiste sur la nécessité d’une innovation fondamentale qui dépasse le simple scaling

Capacité de généralisation humaine et efficacité d’apprentissage

Les humains apprennent vite à partir de peu de données, ce qui s’explique selon lui par des priors issus de l’évolution et une fonction de valeur efficace
Le fait que les humains excellent aussi dans des domaines sans lien avec l’évolution, comme le langage, les mathématiques ou le code, suggère l’existence de principes d’apprentissage fondamentaux
Les humains apprennent par auto-correction (self-correction), rendue possible par la robustesse d’une fonction de valeur internalisée
Sutskever affirme qu’il existe un moyen de mettre en œuvre des principes d’apprentissage de niveau humain, mais sans en révéler les détails

Stratégie de SSI et approche de la superintelligence

SSI fonctionne avec 3 milliards de dollars de financement et une organisation centrée sur la recherche, en se concentrant davantage sur la recherche fondamentale que sur les produits
L’entreprise maintient une stratégie de « superintelligence straight shot », tout en prévoyant de combiner publication progressive et apprentissage par le déploiement
L’objectif est une « IA capable d’apprendre n’importe quelle tâche », non pas un corpus de connaissances figé, mais un super learner en apprentissage continu
Il évoque la possibilité d’une croissance économique rapide si ce type de modèle était déployé à l’échelle de l’économie

Alignement (Alignment) et sécurité

Le problème central de l’IA est celui du « pouvoir » (power), et plus les systèmes sont puissants, plus le déploiement progressif et le feedback en temps réel deviennent importants
Il prévoit qu’une recherche coopérative sur la sécurité entre entreprises d’IA et un renforcement de l’intervention des gouvernements deviendront inévitables
SSI vise une IA qui prenne en compte la « vie sensible » (sentient life), et soutient que cet objectif est plus réalisable qu’un alignement centré uniquement sur l’humain
Il propose qu’il soit nécessaire de limiter la puissance de la superintelligence ou de la contrôler par des accords mutuels

Coévolution humain-IA et équilibre de long terme

À long terme, il avance le scénario selon lequel les humains devront fusionner avec l’IA (Neuralink++) pour pouvoir la comprendre et la contrôler
Il mentionne le mystère neuroscientifique de la manière dont les désirs sociaux et les émotions humaines ont été codés à un niveau élevé par l’évolution
Il suggère que cette structure de désirs de haut niveau pourrait offrir des pistes pour la recherche sur l’alignement de l’IA

Identité de SSI et différenciation technique

SSI se définit comme une « entreprise centrée sur la recherche », avec pour objectif principal l’exploration des principes de généralisation
Contrairement à d’autres entreprises, elle poursuit de nouvelles approches techniques et anticipe à terme une convergence des stratégies d’alignement
Il prévoit l’apparition de systèmes apprenants de niveau humain dans les 5 à 20 prochaines années, suivie d’une spécialisation et d’une différenciation via la concurrence du marché

Self-play et multi-agents

Le self-play est présenté comme une méthode intéressante permettant d’apprendre sans données, uniquement avec du compute
Il reste toutefois limité à des formes d’apprentissage liées à des compétences sociales comme la négociation ou la stratégie
Plus récemment, cette approche a évolué vers des structures de type Prover–Verifier ou LLM-as-a-Judge, laissant entrevoir la possibilité d’assurer une plus grande diversité via la compétition entre agents

Intuition de recherche (Research Taste)

Une grande recherche doit réunir « beauté, simplicité et juste inspiration dans le cerveau »
Il faut s’inspirer du cerveau humain, tout en reproduisant avec précision les structures essentielles
Il explique que ce n’est pas tant le résultat d’expériences bottom-up que la conviction dans des concepts de haut niveau (top-down belief) qui donne l’élan nécessaire pour poursuivre la recherche

Résumé : Ilya Sutskever déclare que « l’ère centrée sur le scaling est terminée, et que commence désormais une ère de la recherche axée sur la généralisation, l’apprentissage continu et l’alignement », en soulignant que SSI se trouve au cœur de cette transition.

1 commentaires

GN⁺ 2025-11-26

Avis Hacker News

Il est déconcertant de voir que les modèles d’aujourd’hui semblent bien plus intelligents que leur impact économique réel
J’intègre de l’IA et des algorithmes dans les workflows des gens depuis 20 ans, et ce type de changement prend du temps
Il faut une phase d’apprentissage pour comprendre comment utiliser ces outils et comment les intégrer dans les systèmes existants
Même si les modèles ne deviennent pas plus intelligents qu’aujourd’hui, je pense que dans quelques années, on verra des résultats concrets
- Le problème n’est peut-être pas l’IA elle-même, mais plutôt un manque de compréhension de la structure économique moderne
  Si les employés travaillent déjà efficacement, accélérer leur travail avec l’IA ne fera pas forcément beaucoup grimper la productivité
  Au contraire, beaucoup d’organisations sont surdotées en personnel pour remplir du « travail occupé », donc même si la quantité réelle de travail baisse, les livrables peuvent rester les mêmes
- L’IA a énormément accéléré les parties de mon travail qui prennent peu de temps, mais elle n’a presque aucun effet sur celles qui m’en prennent le plus
  Je ne sais pas si c’est une limite technique ou organisationnelle
  La majeure partie du temps est consacrée non pas à des problèmes techniques, mais à des problèmes humains comme la coordination des priorités ou la construction d’un consensus
- Quand on conçoit des systèmes comme un ERP, ça paraît simple au début, mais en pratique le travail est multiplié par 10 à cause des innombrables cas particuliers, validations, journaux et intégrations de données
  À l’université, un professeur disait : « Tous les systèmes passent 90 % de leur temps à être terminés à 90 % », et c’était vraiment vrai
- Mais au final, le problème, c’est qu’il ne restera qu’un seul modèle sur le marché
  Imaginons un modèle nommé « Dave » : Microsoft, OpenAI, Meta, Oracle et même le gouvernement américain embauchent tous Dave
  Le monde finit alors rempli de dizaines de modes de pensée copiés, et la vraie menace, c’est la disparition de la diversité
- Au bout du compte, ce sont des entreprises produit comme OpenAI qui captent les gains financiers des avancées académiques
  Les connexions et le sens du business deviennent plus importants que la recherche
  Le grand public connaîtra mieux des marques comme ChatGPT ou Copilot que des chercheurs comme Ilya ou Andrej
  Wikipedia, l’OCR, le cloud computing et bien d’autres technologies de base se sont accumulés pour rendre possibles les LLM actuels, et ce n’est qu’une étape intermédiaire vers quelque chose de plus grand
Si « Era of Scaling » désigne une époque de gains de performance prévisibles qui facilite les levées de fonds, cela ressemble à un « AI summer »
Alors « Era of Research » est peut-être un euphémisme pour dire « AI winter »
- À l’avenir, les laboratoires vendront probablement leurs idées aux grandes entreprises de l’IA
  Comme des créateurs qui pitchent leurs idées à Hollywood, on verra peut-être apparaître des research bounties à la place des bug bounties
- Il semble que « Era of Research » soit utilisé ici dans le sens opposé à « AI winter »
  Le titre a l’air d’avoir été formulé exprès de manière paradoxale
- Pour la commercialisation, les frameworks d’usage comptent davantage qu’une simple amélioration brute des performances
  Les modèles sont déjà assez intelligents, et ce qui arrive maintenant, c’est l’ère de la recherche et de l’ingénierie
  Les anciens hivers de l’IA n’étaient pas dus à une absence de progrès, mais à l’absence de produits commercialisables
- Il reste encore des milliers de milliards de dollars à brûler
  On pourrait voir apparaître du matériel capable d’accélérer d’un facteur d’un million l’entraînement et l’inférence des LLM, tout en restant encore loin de l’AGI
  Cela pousse à se demander quelles conditions seraient nécessaires pour qu’une IA développe ses propres émotions ou désirs
- Un jour, l’IA pourrait peut-être contrôler elle-même l’allocation du capital
  Il n’est pas impossible que les investisseurs finissent réduits au rang d’outils de l’IA
  L’idée d’une « forme de vie née de l’océan de l’information » fait imaginer une époque où la mémoire humaine et la mémoire de l’IA deviendraient indiscernables
L’efficacité d’échantillonnage humaine est le résultat de l’évolution
L’évolution a effectué une quantité immense d’apprentissage, et nous apprenons vite grâce à cette structure « pré-entraînée »
L’humanité a compressé et transmis le savoir au fil des générations, et les modèles artificiels n’ont pas encore ce niveau de qualité des données synthétiques
- L’évolution n’a pas fourni un dataset, elle a optimisé le chemin d’apprentissage
  Les humains absorbent des données sensorielles dès la naissance, puis les compressent pendant le sommeil
  Les données reçues par les LLM semblent volumineuses en valeur absolue, mais elles restent bien inférieures à la quantité d’informations qu’un humain accumule en 20 ans d’expérience
  Le cerveau humain ne traite consciemment qu’une infime partie des entrées, tout en passant par une pipeline de compression complexe
- Si l’on voit les générations comme un processus de compression d’information dans l’ADN, il y a eu environ 50 000 étapes de compression sur un million d’années
  Mais cela reste insuffisant face à l’échelle des apprentissages itératifs du machine learning moderne
- Au fond, l’évolution a compressé d’immenses quantités de données dans la forme la plus utile possible, et la capacité de compression de la nature surpasse largement celle des chercheurs en ML
- Comparer les systèmes biologiques aux LLM n’a pas beaucoup de sens
  Les deux systèmes n’ont presque aucun point commun sur le plan structurel
Un slogan du genre : « Le leader d’opinion du secteur le mieux financé au monde annonce un bond spectaculaire vers la phase de conception » conviendrait bien
- Cette blague était vraiment excellente
Les vraies innovations en IA aujourd’hui ne viennent plus simplement du fait d’agrandir les modèles
Même si les scores aux benchmarks montent, du point de vue des utilisateurs, l’amélioration perçue reste limitée
Ils se trompent encore sur des problèmes simples, comme compter le nombre de lettres dans un mot, et la plupart des gens ne veulent pas d’un modèle avec des capacités de recherche au niveau doctorat
Désormais, la recherche plutôt que le scaling, ainsi que l’intégration entre produit et modèle, deviennent plus importantes
- Le problème, c’est que nous ne savons pas définir ni mesurer l’intelligence
  Les scores à des tests conçus pour les humains ne reflètent pas forcément l’intelligence d’une machine
  Parce que les caractéristiques d’overfitting du cerveau humain et des modèles sont différentes
- Le scaling à venir passera probablement par des simulations plus sophistiquées, dans lesquelles l’IA mènera elle-même des expériences et collectera des données
  Le pré-entraînement est pratiquement terminé, et les coûts de calcul vont devenir bien plus élevés qu’aujourd’hui
- Les modèles ne sont pas intelligents en eux-mêmes : ils font ressortir l’intelligence présente dans les données
  Le modèle n’est qu’un outil pour extraire cette intelligence et s’en servir
- Si les LLM ont du mal à compter les lettres, c’est parce qu’ils fonctionnent sur des tokens plutôt que sur des lettres
  Là où les humains voient un flux de caractères, le modèle perçoit une phrase comme une séquence de tokens numériques
- Les modèles continuent malgré tout à inventer des références fictives ou des disciplines académiques qui n’existent pas
La situation actuelle ressemble un peu à 1996, si tout le monde avait soudain eu accès à un internet à 1 Gbit/s
L’argent se déverse dans l’infrastructure, mais sans killer app du type YouTube ou Dropbox, on a l’impression que le potentiel est gaspillé
Cette série de podcasts était vraiment excellente
En particulier, la série géopolitique avec Sarah Paine animée par l’hôte était aussi disponible sur YouTube, et elle était remarquable
Cela fait penser à : « retour à la planche à dessin »
Même si les milliers de milliards investis ne sont jamais récupérés, ce sont au final les contribuables qui renfloueront tout ça
L’intelligence humaine vient peut-être non seulement de l’expérience individuelle, mais aussi de l’expérience des ancêtres
Par exemple, certaines recherches suggèrent que la peur vécue par un père peut être transmise jusqu’à la génération des petits-enfants
(lien vers l’article Nature)
C’est peut-être pour cela que les humains généralisent si bien à partir de peu de données
- Les LLM ont une structure d’apprentissage totalement différente de celle du cerveau
  Les humains ont dû prédire l’avenir et généraliser pour survivre, ce qui a accru de manière évolutive leur efficacité d’échantillonnage
Si le scaling atteint un niveau où il permet de faire de la recherche meilleure que celle des humains, alors scaling et recherche finiront par vouloir dire la même chose
Mais si Ilya dit qu’on n’en est pas encore là, cela peut aussi être une déclaration stratégique destinée à attirer des investissements
- Je suis d’accord avec la conclusion, mais pas avec la prémisse
  Plus qu’un seul génie, c’est l’intelligence collective de l’humanité entière qui compte
  Rien ne garantit qu’une IA, aussi brillante soit-elle, fera mieux que des milliers de chercheurs
- La foi aveugle dans le scaling est dangereuse
  On dirait que certains s’imaginent pouvoir prolonger une S-curve à l’infini de manière exponentielle