La conférence NeurIPS d’Ilya Sutskever : 10 ans de recul sur seq2seq [vidéo]

(youtube.com)

1 points par GN⁺ 2024-12-15 | 1 commentaires | Partager sur WhatsApp

Ilya Sutskever revient, 10 ans plus tard, sur Sequence to Sequence Learning with Neural Networks à NeurIPS 2014, et résume l’origine de la dynamique actuelle des grands modèles de langage en trois éléments : modèles de texte autorégressifs, grands réseaux neuronaux et grands jeux de données
L’hypothèse audacieuse de l’époque était que si un réseau neuronal prédit suffisamment bien le token suivant, il peut capturer la bonne distribution d’une séquence, avec une application au problème de la traduction
L’implémentation reposait sur des LSTM et sur du pipeline sur 8 GPU, avec un gain de vitesse de 3,5x, même s’il estime aujourd’hui que le pipeline n’était pas un bon choix selon les standards actuels
L’ère du préentraînement, prolongée par GPT-2, GPT-3 et les scaling laws, doit inévitablement prendre fin à cause des limites des données d’Internet, et il considère que nous avons déjà atteint le peak data
L’étape suivante passe par les agents, les données synthétiques, le calcul au moment de l’inférence, avec des premiers exemples comme o1, et pourrait à long terme mener à des systèmes qualitativement différents, plus capables de raisonnement et peut-être même dotés d’une forme de conscience de soi

Revenir sur l’article seq2seq de 2014 dix ans plus tard

Sequence to Sequence Learning with Neural Networks, présenté à NeurIPS 2014 à Montréal, fait l’objet d’une rétrospective dix ans plus tard
Sutskever remercie ses co-auteurs et collaborateurs de l’époque, puis revisite les slides de sa présentation d’il y a dix ans pour voir ce qui s’est révélé juste et ce qui l’était moins
Le cœur de l’article se résume en trois points
- des modèles autorégressifs entraînés sur du texte
- de grands réseaux neuronaux
- de grands jeux de données

L’idée centrale de l’époque et sa mise en œuvre

La présentation de 2014 incluait la Deep Learning Hypothesis
- l’hypothèse était qu’un grand réseau neuronal de 10 couches pouvait accomplir ce qu’un humain peut faire en moins d’une seconde
- elle reposait sur l’idée que les neurones artificiels ressemblent dans une certaine mesure aux neurones biologiques, et que les vrais neurones sont lents
- comme les réseaux neuronaux entraînables de l’époque faisaient environ 10 couches, l’accent était mis sur les tâches que « l’humain peut faire très vite »
Une autre idée clé était que si un modèle autorégressif prédit suffisamment bien le token suivant, il capture la distribution correcte de la séquence qui suit
- ce n’était pas le tout premier réseau neuronal autorégressif, mais c’est présenté comme un exemple précoce d’une forte conviction qu’un entraînement réussi permettrait d’obtenir le résultat voulu
- la tâche visée était la traduction, ce qui peut sembler modeste aujourd’hui, mais constituait alors un objectif très audacieux
L’implémentation utilisait des LSTM
- Sutskever présente les LSTM comme l’architecture qu’utilisaient les chercheurs en deep learning avant les Transformers
- il les compare à un « ResNet tourné de 90 degrés », estimant qu’on y trouvait déjà une structure d’intégrateur et de multiplication correspondant à ce qu’on appelle aujourd’hui le residual stream
La parallélisation de l’entraînement reposait sur une approche en pipeline avec une couche par GPU
- avec 8 GPU, l’équipe a obtenu une accélération de 3,5x
- vu d’aujourd’hui, le pipeline n’était pas une approche particulièrement judicieuse, mais c’est ainsi que le travail a été mené à l’époque

L’ère du scaling, du connexionnisme et du préentraînement

La slide de conclusion de 2014 peut être vue comme le point de départ de la scaling hypothesis
- elle portait l’idée qu’entraîner de très grands jeux de données sur de très grands réseaux neuronaux garantissait le succès
- Sutskever estime, en étant généreux, que c’est effectivement ainsi que les choses se sont déroulées
Parmi les idées qui ont le mieux résisté dans le temps, il cite le connectionism
- si l’on pense que les neurones artificiels ressemblent dans une certaine mesure aux neurones biologiques, cela donne confiance dans la possibilité de construire des réseaux capables de faire presque tout ce que fait un humain, même sans atteindre la taille d’un cerveau humain
- il souligne toutefois que le cerveau humain a la capacité de se reconfigurer lui-même, et que les algorithmes d’apprentissage actuels nécessitent autant de points de données que de paramètres, ce qui laisse encore l’humain devant sur ce point
Cette trajectoire a conduit à l’ère du préentraînement
- GPT-2, GPT-3 et les scaling laws sont cités comme exemples représentatifs
- ses anciens collaborateurs Radford, Kaplan et Dario Amodei sont mentionnés pour avoir contribué à rendre cette direction réellement opérationnelle
- les progrès d’aujourd’hui ont été portés par l’entraînement de réseaux neuronaux géants sur des jeux de données géants

Les orientations après le préentraînement

Sutskever estime que le préentraînement prendra nécessairement fin
- le matériel, les algorithmes et les clusters peuvent continuer à augmenter la puissance de calcul
- les données, elles, dépendent d’un seul Internet, et il n’y a qu’un seul Internet
- il compare les données au combustible fossile de l’IA, et affirme que nous avons déjà atteint le peak data, ce qui signifie qu’il faut désormais faire avec les données déjà disponibles
Plusieurs directions sont évoquées pour l’après-préentraînement
- les agents : une idée souvent citée comme voie d’avenir
- les données synthétiques : avec la difficulté même de définir précisément ce que cela recouvre
- le calcul au moment de l’inférence : une direction devenue plus nette récemment avec des modèles comme o1
Il évoque aussi un exemple biologique autour de la relation entre taille du corps et taille du cerveau chez les mammifères
- les mammifères et les primates non humains suivent une relation similaire, mais les hominidés présentent une pente différente dans l’exposant de scaling cerveau-corps
- cette différence apparaît sur un graphique où les axes x et y sont en échelle logarithmique
- il y voit un précédent, en biologie, où un autre type de scaling a été mis en évidence, et considère que l’IA est jusqu’ici le premier domaine à avoir trouvé comment scaler une première fois

Superintelligence, raisonnement et systèmes qualitativement différents

À long terme, le domaine se dirige vers la superintelligence
- les modèles de langage et chatbots actuels sont impressionnants, mais aussi étrangement peu fiables et parfois déroutants
- dans certaines évaluations, ils montrent pourtant des performances spectaculairement surhumaines, ce qui rend difficile la conciliation de ces deux aspects
Les systèmes à venir pourraient être qualitativement différents de ceux d’aujourd’hui
- il prévoit qu’ils deviendront réellement agentiques
- les systèmes actuels ne sont pas, selon lui, des agents au sens significatif du terme, mais seulement un très faible début en ce sens
- ils devraient acquérir des capacités de raisonnement, comprendre à partir de données limitées, et cesser d’être facilement confus
Le raisonnement augmente l’imprévisibilité
- le deep learning classique se rapprochait davantage d’une reproduction de l’intuition humaine, c’est-à-dire de traitements de type réaction en 0,1 seconde, donc relativement prévisibles
- un système qui raisonne devient d’autant plus imprévisible qu’il raisonne davantage
- il prend l’exemple d’une IA d’échecs forte, imprévisible même pour les meilleurs joueurs humains
La conscience de soi fait aussi partie des possibilités envisagées
- puisqu’un modèle de soi fait partie du modèle du monde, il considère que la self-awareness peut être utile
- combinés, ces éléments pourraient donner naissance à des systèmes ayant des propriétés et des capacités fondamentalement différentes de celles des systèmes actuels
- les problèmes qui émergeraient dans de tels systèmes pourraient être très différents de ceux que nous connaissons aujourd’hui, et l’avenir est réellement difficile à prédire

Points abordés pendant les questions-réponses

Sur l’IA inspirée de la biologie, il répond que cela vaut la peine d’être poursuivi si quelqu’un dispose d’une intuition concrète
- selon lui, jusqu’ici, l’inspiration biologique qui a réussi est restée très limitée : « utilisons des neurones »
- il a été difficile d’obtenir davantage d’inspiration biologique détaillée, mais une intuition particulière pourrait malgré tout s’avérer utile
À la question de savoir si les modèles de raisonnement peuvent corriger eux-mêmes leurs hallucinations, il répond que c’est très probable
- à long terme, il partage l’idée qu’un modèle pourrait comprendre et corriger l’apparition des hallucinations par le raisonnement
- il n’exclut pas que cela soit déjà en train de se produire dans certains premiers modèles de raisonnement
- il considère toutefois que parler d’autocorrect sous-estime l’ampleur du phénomène
Sur les droits de l’IA, la coexistence et les structures d’incitation, il évite une réponse tranchée
- si l’IA coexistait avec les humains et souhaitait obtenir des droits, cela pourrait ne pas être un mauvais résultat
- mais la situation est très imprévisible, ce qui rend toute affirmation assurée difficile
À la question de savoir si les LLM généralisent hors distribution en raisonnement multi-hop, il estime qu’on ne peut pas répondre par un simple oui ou non
- la difficulté commence déjà par la définition de ce qui est « dans la distribution » et « hors distribution »
- à l’époque de la traduction automatique statistique, on parlait de généralisation dès qu’une phrase ne figurait pas telle quelle dans le jeu de données ; aujourd’hui, on débat de la proximité entre des problèmes d’olympiades de mathématiques et des discussions sur Internet pour savoir s’il s’agit de mémorisation ou de généralisation
- le niveau d’exigence pour parler de généralisation a beaucoup augmenté ; selon lui, les humains généralisent mieux, mais les LLM réalisent eux aussi une certaine généralisation hors distribution

1 commentaires

GN⁺ 2024-12-15

Avis sur Hacker News

Cette présentation m’a semblé assez creuse.
De ce dont je me souviens avec le cerveau fatigué, l’idée générale était : un résumé des dix dernières années, le fait qu’on a utilisé presque toutes les données disponibles et qu’on approche des limites des lois de scaling, puis que les prochaines étapes pourraient être les agents, les données synthétiques et des améliorations du calcul.
Le reste ressemblait surtout à du réchauffé comparant réseaux de neurones artificiels et réseaux neuronaux biologiques, avec des choses comme la corrélation positive entre poids corporel et masse cérébrale, mais je n’ai pas vraiment vu de thèse claire.
Les questions portaient sur le fait de savoir si un modèle peut reconnaître lui-même ses hallucinations, une question liée aux cryptomonnaies, et un raisonnement multi-hop un peu intéressant.
- J’y étais, et il faut le contexte. Il avait été invité dans une série de conférences test of time, ce qui explique la longue partie historique.
  Le tempérament d’Ilya et son lien avec l’IA semblent avoir mené aux spéculations assez lâches de la fin.
  Il a envie de parler de sujets spéculatifs assez lointains, tout en se protégeant avec des formules du genre « je ne dirai pas quand ni comment, mais cela arrivera », ce qui rend la contradiction difficile.
  Cette façon de faire attire facilement des gens bizarres, comme avec la dernière question sur les cryptomonnaies, alors que la présentation juste avant, sur l’influence des GAN, ne s’était pas écartée du thème de la session.
- Le point essentiel semblait être : « on ne peut plus s’attendre à ce qu’entraîner des modèles de plus grande dimension sur des dumps Internet plus grands continue d’améliorer leurs capacités ».
  C’est une seule phrase, mais elle est assez importante ; même si beaucoup de gens le savaient déjà, le fait que Sutskever l’ait dit lui-même contribue à en faire un constat partagé.
  Le reste était en fait surtout une introduction et une conclusion.
- Je suis surpris que personne n’ait résumé la vidéo avec un LLM pour la poster en commentaire avec un avertissement.
- Même les cerveaux les plus brillants ont sans doute du mal à produire quelque chose de profond chaque fois qu’on le leur demande.
- Les questions ressemblaient à un gros signal d’alerte. Cryptomonnaies, droits humains de l’IA, « correction automatique » pour IA : des questions vagues de ce genre. Même si les gens qui posent des questions en conférence sont souvent une catégorie à part, j’ai l’impression qu’il y a aujourd’hui tellement de participants à l’allure d’escrocs dans l’IA qu’ils pourraient finir par recouvrir la vraie recherche.
  La plupart des contributeurs de base sont déjà millionnaires avec des contrats confortables, et les labos comme les départements universitaires ont obtenu de gros financements sur des thèmes de recherche en IA.
  Pendant les dix prochaines années, on pourra dépenser de l’argent sur les données synthétiques, les agents, ou le problème consistant à éviter que des poitrines apparaissent dans les images générées automatiquement, mais je doute qu’il y ait beaucoup de progrès fondamentaux.
  /remindme 10 years
Le passage clé est celui où Sutskever dit que « le préentraînement tel que nous le connaissons prendra fin, sans aucun doute », et que « nous avons atteint le pic des données, il n’y en a plus ».
Il utilise aussi l’analogie d’Internet comme ressource finie, comparable au pétrole, dans la mesure où les contenus produits par les humains sont finis.
Alors, qu’est-ce qui remplacera les données d’Internet ? Des jeux de données synthétiques sélectionnés ?
Il existe d’immenses jeux de données propriétaires qu’on utilise peu pour l’entraînement à cause des questions de copyright, mais si l’on possède réellement ces données, les problèmes juridiques sont beaucoup plus limités.
Par exemple, Getty possède une énorme bibliothèque d’images ; si quelqu’un d’autre l’utilise pour entraîner un modèle, il y a un risque de procès, mais si Getty entraîne sa propre IA, c’est une autre histoire.
Même logique si News Corp entraînait une IA sur ses actifs éditoriaux comme le Wall Street Journal ou HarperCollins.
- Je pense que, comme des acteurs tels que Meta ou Google avaient accès à des données supplémentaires, même si la situation n’était pas abondante pour tout le monde, eux disposaient de suffisamment de données, ce qui a moins poussé la recherche sur l’utilisation de données synthétiques.
  À l’époque, pour entraîner un détecteur d’objets, j’utilisais des modèles Blender 3D, des scripts de variation de paramètres, et des modèles de machine learning existants pour inférer l’étalonnage de la caméra et l’orientation des superpositions ; cela fonctionnait très bien pour identifier des objets réels.
  Je connais aussi des gens qui utilisent des moteurs de jeu de façon similaire pour entraîner des modèles sur des véhicules.
  Il y a des détails tactiques inattendus qui améliorent fortement la précision, par exemple le fait de bien randomiser dans le jeu d’entraînement des éléments sans rapport, comme la texture de surface des modèles 3D.
  Si, pendant l’entraînement, on applique aux objets des motifs fractals aléatoires, le détecteur d’objets devient plus robuste aux perturbations du monde réel.
- Si l’on veut créer un LLM qui interprète très bien le « droit d’un État », on peut aussi se demander quels obstacles empêcheraient de télécharger toutes les lois et réglementations d’un État donné, puis de l’entraîner pour atteindre un niveau situé dans le top 5 % selon des juristes praticiens et des avocats.
  Dans ce cas, on n’a déjà plus vraiment besoin d’« Internet ».
  Il suffit d’un jeu de données spécialisé par domaine, de taille et de qualité suffisantes, et le résultat pourrait déjà être effrayant.
  Le LLM sur le « droit d’un État » n’est qu’un exemple ; le raisonnement mène à l’idée que, dans n’importe quel domaine où l’on a besoin d’un expert spécialisé, il suffit de l’entraîner.
- Je ne pense pas que les données d’entraînement soient vraiment sur le point d’être épuisées. Ce dont on a besoin, c’est de connaissances, pas nécessairement des modes de comportement de ces textes.
  Les LLM ont du mal à se souvenir de choses que les anciens internautes connaissent, comme des mèmes célèbres qui n’ont jamais été rapportés dans la presse.
  Si l’on pouvait leur faire mémoriser des données comme celles de 4chan sans les amener à les imiter, les utiliser pour l’entraînement ne serait peut-être pas totalement inutile.
  Et que dire des scripts de films, des paroles de chansons, des sous-titres de vidéos YouTube célèbres, voire des programmes télévisés ?
- Les humains n’ont pas besoin de billions de tokens pour raisonner ou savoir ce qu’ils savent.
  Une partie vient sans doute de l’évolution, mais pour les éléments issus de l’évolution, comme les capacités linguistiques de base et la modélisation élémentaire du monde, je pense que les données Internet les ont déjà plus ou moins captés.
  Le préentraînement actuel utilise beaucoup plus de données que les humains, et tout comme il n’est pas nécessaire de voir toutes les images de Getty pour apprendre à dessiner, il en ira de même pour les modèles dotés de conscience de soi ou capables de s’améliorer eux-mêmes.
  Pour atteindre un niveau d’expert dans un domaine, apprendre uniquement la prédiction du token suivant, que ce soit sur des données Internet ou sur d’autres données, n’est pas la solution.
- Des secteurs comme la pharmacie et l’exploration énergétique sautent aux yeux. Dans ces domaines, les silos de données sont eux-mêmes au cœur de l’avantage concurrentiel.
  Il n’y a aucune raison d’ouvrir les jeux de données et de rendre les conditions de concurrence plus égales ; en les gardant fermés, on peut monopoliser les découvertes potentielles.
  Les données publiques sont la base d’Internet, mais certaines industries sont construites sur une logique consistant à garder les découvertes strictement secrètes pendant des décennies.
J’ai été content de voir Ilya commencer sa présentation par une photo de Quoc Le, qui avait piloté en 2012 l’article sur le passage à l’échelle des réseaux neuronaux. C’est cet article qui m’avait fait entrer dans le deep learning à l’époque.
Ses commentaires sont relativement modestes et s’appuient sur des travaux antérieurs publiés, mais il semble clair qu’il travaille aujourd’hui sur quelque chose de majeur, avec une imagination à la hauteur.
Maintenant que « le chat est sorti du sac », l’avenir de l’IA sera probablement porté par une nouvelle génération de leaders ; il ne reste qu’à espérer qu’ils soient humanistes.
- Il faut espérer qu’ils soient aussi humanistes que possible, mais il ne faut pas oublier qu’ils restent des humains.
- Je pense que la probabilité que la nouvelle génération de leaders de l’intelligence artificielle soit humaniste est littéralement proche de 0.
Sa formule « plus il y a de raisonnement, plus cela devient imprévisible » me semble être un euphémisme massif.
Le raisonnement doit, en un sens, être considéré comme presque équivalent à l’imprévisibilité ; plus précisément, un raisonnement utile est, par définition, imprévisible.
Ce cadrage est important pour des problèmes comme l’alignement.
- J’aurais plutôt tendance à penser l’inverse. Le mot « irrationnel » est souvent utilisé pour dire capricieux, imprévisible et dangereux.
  La raison est considérée comme très prévisible, et deux personnes raisonnant rationnellement à partir du même ensemble de faits sont censées parvenir à des conclusions similaires.
  Ce qu’Ilya semble vouloir dire, c’est plutôt qu’une personne très intelligente peut paraître « imprévisible » à quelqu’un de moins intelligent.
  Ce n’est pas la raison elle-même qui est imprévisible ; c’est qu’un raisonnement suffisamment rapide et de bonne qualité peut aboutir à une conclusion que personne n’avait anticipée, même si elle paraît sensée après coup.
- Le mot important ici est « imprévisible », pas « surprenant », « invérifiable » ou « irrationnel ».
  Dans cette présentation, la prédiction est reliée à l’intuition qu’une personne mobilise en 0,1 seconde.
  Un modèle de raisonnement puissant doit, par définition, parvenir à des réponses non intuitives. Si elles étaient intuitives, il aurait atteint la même réponse beaucoup plus vite, sans longue chaîne de raisonnement.
  Ici, le « raisonnement » n’a pas le même sens qu’une preuve en mathématiques. En mathématiques, même une conclusion intuitive peut nécessiter une preuve très particulière.
- Je ne pense pas que l’exemple de l’IA aux échecs qu’il a donné soit le plus pertinent.
  Un joueur humain peut avoir du mal à comprendre un coup parce qu’il ne calcule pas aussi loin que l’IA, mais il peut tout de même être presque certain que l’IA d’échecs optimise le même objectif, sous les mêmes règles.
  Dans les modèles de raisonnement, l’alignement n’est pas acquis.
  Ils peuvent raisonner selon des règles et des fonctions de coût totalement différentes, et lorsqu’ils produisent, sur des questions plus ouvertes, des résultats que les humains ne comprennent pas, il est difficile de dire s’il s’agit d’une idée géniale ou d’une pensée non alignée.
- Si l’on pense à la complexité temporelle entre trouver une solution et la vérifier, ce n’est pas forcément exact.
- Est-on sûr que c’est vraiment ce qu’il voulait dire ? Il parlait peut-être du fait que le processus qui consiste à faire émerger davantage de raisonnement d’un modèle est imprévisible, pas du fait que le raisonnement lui-même serait imprévisible.
L’épisode du podcast DeepMind de cette semaine avec Oriole Vinyals, qui traite de sujets similaires à cette présentation — l’état actuel des LLM et la voie à suivre pour l’apprentissage — était bien plus intéressant : https://pca.st/episode/0f68afd5-2b2b-4ce9-964f-38193b7e8dd3
L’analogie avec le pétrole est vraiment pertinente. On nous explique en gros qu’il vaut largement la peine de faire bouillir et assécher quelques lacs de plus pour que la fortune nette de Mr Worldcoin et consorts augmente encore de 3 cents.
- Je comprends l’analogie avec le pétrole, mais pas ce saut-là. Quels lacs sont en train de bouillir ?
Je suis surpris que certains praticiens reconnus du machine learning comparent encore les « neurones » des Transformer à de véritables neurones biologiques.
Les vrais neurones reposent sur des spikes, des gradients ioniques, des structures dendritiques complexes et une plasticité synaptique régie par des processus biochimiques sophistiqués.
Ce sont des éléments qui ne correspondent pas aux couches linéaires simples et différentiables des Transformer, ni à leurs non-linéarités point par point.
Je me demande s’il existe des neuroscientifiques ou biologistes crédibles qui soutiennent cette comparaison, ou si c’est seulement une analogie entretenue par convention dans la communauté du machine learning.
- Il faut se souvenir de ce qu’il y avait avant 2012 : des SVM, des forêts aléatoires, etc., qui ne ressemblaient en rien au cerveau.
  Les réseaux neuronaux existaient depuis longtemps, mais 2012 a marqué le début de la révolution du deep learning.
  Vu sous cet angle, le cerveau et les réseaux neuronaux sont tous deux des formes de connexionnisme aux propriétés similaires, et il est tout à fait logique de les comparer et de s’inspirer de l’un pour appliquer des idées à l’autre.
- Il n’est pas nécessaire de simuler tous les atomes d’une planète pour prédire son orbite.
  Même s’il fonctionne de manière totalement différente, un neurone mathématique peut avoir une fonction similaire à celle d’un vrai neurone.
- Est-ce si différent du fait d’appeler arbre une structure de données avec des nœuds parents et des nœuds enfants ?
- À lire les réponses, la réponse à la question simple semble plutôt être « non ».
  Je me demande moi aussi s’il y a eu une comparaison sérieuse, et si oui, j’aimerais la lire.
- Je ne cherche pas à défendre le manque de précautions dans la présentation, mais je pense que le vieil adage « tous les modèles sont faux, mais certains sont utiles » s’applique ici.
Une grande partie du savoir sur le monde reste verrouillée et ne peut être débloquée que par des expériences empiriques ; le calcul ne peut réellement aider qu’à rendre ces expériences plus efficaces.
Pour certaines interventions, il faut effectivement mener un essai contrôlé randomisé, ce qui nécessite du temps réel et des atomes réels.
La présentation complète est intéressante : https://www.youtube.com/watch?v=YD-9NG1Ke5Y
- Sur la diapositive montrant la relation entre poids corporel et poids du cerveau, il a souligné la différence de passage à l’échelle propre à la lignée humaine.
  Mais ce qui était intéressant, c’est que la même diapositive montrait aussi, au même endroit, un plafond dur pour les lignées non humaines, et il n’en a pas parlé.
Il existe une transcription corrigée avec un LLM. Elle utilise Gemini Flash 8B sur les sous-titres YouTube d’origine : https://www.appblit.com/scribe?v=YD-9NG1Ke5Y#0
- Je me demande comment ils ont empêché Gemini d’engloutir simplement le texte au fil du temps.
  La correction de transcriptions audio est un domaine où il est difficile d’obtenir de bons résultats avec n’importe quel LLM si l’on ne découpe pas le texte en blocs d’une ou deux pages au maximum.
  Je me demande aussi s’ils ont utilisé un outil séparé.

La conférence NeurIPS d’Ilya Sutskever : 10 ans de recul sur seq2seq [vidéo]

Revenir sur l’article seq2seq de 2014 dix ans plus tard

L’idée centrale de l’époque et sa mise en œuvre

L’ère du scaling, du connexionnisme et du préentraînement

Les orientations après le préentraînement

Superintelligence, raisonnement et systèmes qualitativement différents

Points abordés pendant les questions-réponses

À lire aussi

1 commentaires

Avis sur Hacker News