- Il souligne les limites de généralisation des modèles d’IA et le biais d’un entraînement centré sur l’apprentissage par renforcement (RL), en expliquant pourquoi les systèmes actuels ne parviennent pas à raisonner avec la souplesse des humains
- Le pré-entraînement (pre-training) permet d’acquérir des connaissances naturelles à partir de vastes volumes de données, mais il est jugé insuffisant en matière d’adaptation au monde réel
- Il estime que l’ère du scaling (2012~2025) touche à sa fin, et qu’il faut désormais de nouveaux principes d’apprentissage et une innovation centrée sur la recherche
- SSI vise des modèles dotés de capacités d’apprentissage de niveau humain en combinant apprentissage continu (continual learning) et apprentissage via le déploiement dans le monde réel
- Dans la perspective où l’IA doit intégrer « émotions et fonction de valeur », « capacité de généralisation » et « alignement éthique », il esquisse la direction future de la recherche en IA
Instabilité des modèles et problème de généralisation
- Les modèles d’IA actuels excellent dans les évaluations (evals), mais présentent une « irrégularité » (jaggedness) marquée, avec des erreurs répétées en conditions réelles
- Exemple cité : lorsqu’on demande de corriger du code, ils peuvent réparer un bug puis en réintroduire un autre
- Il analyse que l’entraînement RL est trop fortement ajusté à certains indicateurs d’évaluation, ce qui entraîne une baisse de la capacité de généralisation
- En comparaison de l’apprentissage humain, il compare ces modèles à un « étudiant en programmation compétitive » suradapté à certains problèmes, mais peu efficace dans les applications réelles
Émotions et fonction de valeur (Value Function)
- Le système émotionnel humain joue un rôle clé dans la prise de décision, et peut être interprété comme l’équivalent biologique d’une fonction de valeur
- À travers des cas d’êtres humains privés d’émotions, il souligne que les émotions sont un élément indispensable à un jugement efficace et à l’apprentissage
- L’apprentissage par renforcement actuel dépend uniquement de la récompense finale, alors que la fonction de valeur permet un feedback à des étapes intermédiaires, améliorant ainsi l’efficacité de l’apprentissage
- Il suggère que l’IA de demain devra intégrer une architecture de fonction de valeur capable de régulation émotionnelle
De l’ère du scaling à l’ère de la recherche
- Il distingue la période 2012~2020 comme une phase de progrès centrée sur la recherche, et 2020~2025 comme une phase de progrès centrée sur le scaling
- Le simple accroissement des données, des paramètres et du compute a atteint ses limites, et il faut désormais explorer de nouvelles recettes d’apprentissage
- Le RL a émergé comme un nouvel axe de scaling, mais l’utilisation efficace des ressources et de nouveaux principes d’apprentissage sont les défis clés de la prochaine étape
- Avec la déclaration « c’est à nouveau l’ère de la recherche », il insiste sur la nécessité d’une innovation fondamentale qui dépasse le simple scaling
Capacité de généralisation humaine et efficacité d’apprentissage
- Les humains apprennent vite à partir de peu de données, ce qui s’explique selon lui par des priors issus de l’évolution et une fonction de valeur efficace
- Le fait que les humains excellent aussi dans des domaines sans lien avec l’évolution, comme le langage, les mathématiques ou le code, suggère l’existence de principes d’apprentissage fondamentaux
- Les humains apprennent par auto-correction (self-correction), rendue possible par la robustesse d’une fonction de valeur internalisée
- Sutskever affirme qu’il existe un moyen de mettre en œuvre des principes d’apprentissage de niveau humain, mais sans en révéler les détails
Stratégie de SSI et approche de la superintelligence
- SSI fonctionne avec 3 milliards de dollars de financement et une organisation centrée sur la recherche, en se concentrant davantage sur la recherche fondamentale que sur les produits
- L’entreprise maintient une stratégie de « superintelligence straight shot », tout en prévoyant de combiner publication progressive et apprentissage par le déploiement
- L’objectif est une « IA capable d’apprendre n’importe quelle tâche », non pas un corpus de connaissances figé, mais un super learner en apprentissage continu
- Il évoque la possibilité d’une croissance économique rapide si ce type de modèle était déployé à l’échelle de l’économie
Alignement (Alignment) et sécurité
- Le problème central de l’IA est celui du « pouvoir » (power), et plus les systèmes sont puissants, plus le déploiement progressif et le feedback en temps réel deviennent importants
- Il prévoit qu’une recherche coopérative sur la sécurité entre entreprises d’IA et un renforcement de l’intervention des gouvernements deviendront inévitables
- SSI vise une IA qui prenne en compte la « vie sensible » (sentient life), et soutient que cet objectif est plus réalisable qu’un alignement centré uniquement sur l’humain
- Il propose qu’il soit nécessaire de limiter la puissance de la superintelligence ou de la contrôler par des accords mutuels
Coévolution humain-IA et équilibre de long terme
- À long terme, il avance le scénario selon lequel les humains devront fusionner avec l’IA (Neuralink++) pour pouvoir la comprendre et la contrôler
- Il mentionne le mystère neuroscientifique de la manière dont les désirs sociaux et les émotions humaines ont été codés à un niveau élevé par l’évolution
- Il suggère que cette structure de désirs de haut niveau pourrait offrir des pistes pour la recherche sur l’alignement de l’IA
Identité de SSI et différenciation technique
- SSI se définit comme une « entreprise centrée sur la recherche », avec pour objectif principal l’exploration des principes de généralisation
- Contrairement à d’autres entreprises, elle poursuit de nouvelles approches techniques et anticipe à terme une convergence des stratégies d’alignement
- Il prévoit l’apparition de systèmes apprenants de niveau humain dans les 5 à 20 prochaines années, suivie d’une spécialisation et d’une différenciation via la concurrence du marché
Self-play et multi-agents
- Le self-play est présenté comme une méthode intéressante permettant d’apprendre sans données, uniquement avec du compute
- Il reste toutefois limité à des formes d’apprentissage liées à des compétences sociales comme la négociation ou la stratégie
- Plus récemment, cette approche a évolué vers des structures de type Prover–Verifier ou LLM-as-a-Judge, laissant entrevoir la possibilité d’assurer une plus grande diversité via la compétition entre agents
Intuition de recherche (Research Taste)
- Une grande recherche doit réunir « beauté, simplicité et juste inspiration dans le cerveau »
- Il faut s’inspirer du cerveau humain, tout en reproduisant avec précision les structures essentielles
- Il explique que ce n’est pas tant le résultat d’expériences bottom-up que la conviction dans des concepts de haut niveau (top-down belief) qui donne l’élan nécessaire pour poursuivre la recherche
Résumé : Ilya Sutskever déclare que « l’ère centrée sur le scaling est terminée, et que commence désormais une ère de la recherche axée sur la généralisation, l’apprentissage continu et l’alignement », en soulignant que SSI se trouve au cœur de cette transition.
1 commentaires
Avis Hacker News
Il est déconcertant de voir que les modèles d’aujourd’hui semblent bien plus intelligents que leur impact économique réel
J’intègre de l’IA et des algorithmes dans les workflows des gens depuis 20 ans, et ce type de changement prend du temps
Il faut une phase d’apprentissage pour comprendre comment utiliser ces outils et comment les intégrer dans les systèmes existants
Même si les modèles ne deviennent pas plus intelligents qu’aujourd’hui, je pense que dans quelques années, on verra des résultats concrets
Si les employés travaillent déjà efficacement, accélérer leur travail avec l’IA ne fera pas forcément beaucoup grimper la productivité
Au contraire, beaucoup d’organisations sont surdotées en personnel pour remplir du « travail occupé », donc même si la quantité réelle de travail baisse, les livrables peuvent rester les mêmes
Je ne sais pas si c’est une limite technique ou organisationnelle
La majeure partie du temps est consacrée non pas à des problèmes techniques, mais à des problèmes humains comme la coordination des priorités ou la construction d’un consensus
À l’université, un professeur disait : « Tous les systèmes passent 90 % de leur temps à être terminés à 90 % », et c’était vraiment vrai
Imaginons un modèle nommé « Dave » : Microsoft, OpenAI, Meta, Oracle et même le gouvernement américain embauchent tous Dave
Le monde finit alors rempli de dizaines de modes de pensée copiés, et la vraie menace, c’est la disparition de la diversité
Les connexions et le sens du business deviennent plus importants que la recherche
Le grand public connaîtra mieux des marques comme ChatGPT ou Copilot que des chercheurs comme Ilya ou Andrej
Wikipedia, l’OCR, le cloud computing et bien d’autres technologies de base se sont accumulés pour rendre possibles les LLM actuels, et ce n’est qu’une étape intermédiaire vers quelque chose de plus grand
Si « Era of Scaling » désigne une époque de gains de performance prévisibles qui facilite les levées de fonds, cela ressemble à un « AI summer »
Alors « Era of Research » est peut-être un euphémisme pour dire « AI winter »
Comme des créateurs qui pitchent leurs idées à Hollywood, on verra peut-être apparaître des research bounties à la place des bug bounties
Le titre a l’air d’avoir été formulé exprès de manière paradoxale
Les modèles sont déjà assez intelligents, et ce qui arrive maintenant, c’est l’ère de la recherche et de l’ingénierie
Les anciens hivers de l’IA n’étaient pas dus à une absence de progrès, mais à l’absence de produits commercialisables
On pourrait voir apparaître du matériel capable d’accélérer d’un facteur d’un million l’entraînement et l’inférence des LLM, tout en restant encore loin de l’AGI
Cela pousse à se demander quelles conditions seraient nécessaires pour qu’une IA développe ses propres émotions ou désirs
Il n’est pas impossible que les investisseurs finissent réduits au rang d’outils de l’IA
L’idée d’une « forme de vie née de l’océan de l’information » fait imaginer une époque où la mémoire humaine et la mémoire de l’IA deviendraient indiscernables
L’efficacité d’échantillonnage humaine est le résultat de l’évolution
L’évolution a effectué une quantité immense d’apprentissage, et nous apprenons vite grâce à cette structure « pré-entraînée »
L’humanité a compressé et transmis le savoir au fil des générations, et les modèles artificiels n’ont pas encore ce niveau de qualité des données synthétiques
Les humains absorbent des données sensorielles dès la naissance, puis les compressent pendant le sommeil
Les données reçues par les LLM semblent volumineuses en valeur absolue, mais elles restent bien inférieures à la quantité d’informations qu’un humain accumule en 20 ans d’expérience
Le cerveau humain ne traite consciemment qu’une infime partie des entrées, tout en passant par une pipeline de compression complexe
Mais cela reste insuffisant face à l’échelle des apprentissages itératifs du machine learning moderne
Les deux systèmes n’ont presque aucun point commun sur le plan structurel
Un slogan du genre : « Le leader d’opinion du secteur le mieux financé au monde annonce un bond spectaculaire vers la phase de conception » conviendrait bien
Les vraies innovations en IA aujourd’hui ne viennent plus simplement du fait d’agrandir les modèles
Même si les scores aux benchmarks montent, du point de vue des utilisateurs, l’amélioration perçue reste limitée
Ils se trompent encore sur des problèmes simples, comme compter le nombre de lettres dans un mot, et la plupart des gens ne veulent pas d’un modèle avec des capacités de recherche au niveau doctorat
Désormais, la recherche plutôt que le scaling, ainsi que l’intégration entre produit et modèle, deviennent plus importantes
Les scores à des tests conçus pour les humains ne reflètent pas forcément l’intelligence d’une machine
Parce que les caractéristiques d’overfitting du cerveau humain et des modèles sont différentes
Le pré-entraînement est pratiquement terminé, et les coûts de calcul vont devenir bien plus élevés qu’aujourd’hui
Le modèle n’est qu’un outil pour extraire cette intelligence et s’en servir
Là où les humains voient un flux de caractères, le modèle perçoit une phrase comme une séquence de tokens numériques
La situation actuelle ressemble un peu à 1996, si tout le monde avait soudain eu accès à un internet à 1 Gbit/s
L’argent se déverse dans l’infrastructure, mais sans killer app du type YouTube ou Dropbox, on a l’impression que le potentiel est gaspillé
Cette série de podcasts était vraiment excellente
En particulier, la série géopolitique avec Sarah Paine animée par l’hôte était aussi disponible sur YouTube, et elle était remarquable
Cela fait penser à : « retour à la planche à dessin »
Même si les milliers de milliards investis ne sont jamais récupérés, ce sont au final les contribuables qui renfloueront tout ça
L’intelligence humaine vient peut-être non seulement de l’expérience individuelle, mais aussi de l’expérience des ancêtres
Par exemple, certaines recherches suggèrent que la peur vécue par un père peut être transmise jusqu’à la génération des petits-enfants
(lien vers l’article Nature)
C’est peut-être pour cela que les humains généralisent si bien à partir de peu de données
Les humains ont dû prédire l’avenir et généraliser pour survivre, ce qui a accru de manière évolutive leur efficacité d’échantillonnage
Si le scaling atteint un niveau où il permet de faire de la recherche meilleure que celle des humains, alors scaling et recherche finiront par vouloir dire la même chose
Mais si Ilya dit qu’on n’en est pas encore là, cela peut aussi être une déclaration stratégique destinée à attirer des investissements
Plus qu’un seul génie, c’est l’intelligence collective de l’humanité entière qui compte
Rien ne garantit qu’une IA, aussi brillante soit-elle, fera mieux que des milliers de chercheurs
On dirait que certains s’imaginent pouvoir prolonger une S-curve à l’infini de manière exponentielle