La créativité et la découverte en IA selon Rich Sutton
(twitter.com/RichardSSutton)- L’IA générative entraînée par apprentissage supervisé est un modèle d’imitation qui se comporte de manière similaire aux exemples, et même si elle est utile, elle a des limites pour produire de nouvelles découvertes en science et en mathématiques
- Pour les réponses trouvées sur Internet ou les résumés de documents, la nouveauté devient au contraire une hallucination, et la qualité d’une bonne réponse vient des sources
- Même dans les cas où la nouveauté est nécessaire, comme pour les romans ou la génération d’images, il est difficile de savoir à quel point la sortie est proche des données d’entraînement, et l’aléatoire crée de la nouveauté mais, sans évaluation, ne peut pas conduire à une bonne découverte
- Des systèmes comme AlphaGo, AlphaZero, GT-Sophy, AlphaFold, AlphaProof, Claude-Code et RL-Lyft trouvent des résultats à la fois nouveaux et bons grâce à l’évaluation et à la conservation sélective
- Si l’on veut un scientifique IA complet, il faut partager des objectifs explicites pour que l’IA puisse créer, évaluer et découvrir, et il faut une automatisation de la créativité et de la découverte
Limites et utilité de l’IA générative
- L’IA générative est un modèle d’imitation qui reçoit un grand nombre d’exemples pour produire du texte comme un humain, des images comme un artiste ou la nature, ou des vidéos comme celles d’Internet
- L’IA générative peut être très utile, mais l’ancienne plaisanterie selon laquelle « les bonnes parties ne sont pas nouvelles et les parties nouvelles ne sont pas bonnes » s’applique largement
- Lorsqu’on cherche des réponses sur Internet ou qu’on résume des documents, il n’est pas nécessaire que l’IA soit nouvelle, et la qualité de la réponse vient des sources, comme les auteurs des documents ou les textes publiés en ligne
- Si une réponse d’IA ajoute quelque chose au-delà des sources, c’est une hallucination, et dans la plupart des cas les utilisateurs ne veulent pas que l’IA invente
Le problème de la nouveauté, de l’aléatoire et de l’évaluation
- Lorsque l’utilisateur veut exceptionnellement de la nouveauté plutôt que des faits ou de la réalité, par exemple pour un roman ou du divertissement
- On peut demander à une IA générative une histoire du soir pour un enfant, ou une image différente des images existantes sur Internet tout en s’appuyant sur elles
- Comme Internet est immense et que les sources possibles sont trop nombreuses, il est difficile de savoir en pratique à quel point les histoires, poèmes ou images d’une IA sont réellement créatifs
- Le traitement de l’IA générative est en partie stochastique, si bien que chaque décision peut partir dans plusieurs directions et produire à chaque fois une trajectoire différente
- Si la trajectoire repose sur l’aléatoire, elle sera nouvelle, et si elle repose sur les données d’entraînement, elle pourra être bonne grâce à la qualité des données, mais elle ne sera pas à la fois nouvelle et bonne
Les découvertes nécessaires en science et en mathématiques
- Même si l’IA générative ne peut pas être simultanément bonne et nouvelle, ce n’est pas un problème fatal dans la plupart des usages, et elle peut devenir une technologie transformatrice si elle est rapide, bon marché, compacte, personnalisable et duplicable
- En science et en mathématiques, une IA purement fondée sur l’imitation ne suffit pas, il faut une véritable créativité et de la découverte
- Le 37e coup d’AlphaGo, le style d’échecs original d’AlphaZero et les performances de GT-Sophy en course sur simulateur sont des exemples de découverte de quelque chose de nouveau et de bon
- AlphaFold, AlphaProof et Claude-Code sont présentés comme des exemples d’avancées réelles en science, en mathématiques et en programmation
- RL-Lyft est un système qui optimise la manière d’attribuer des véhicules aux passagers dans une activité de VTC
- Certains modèles de langage sont renforcés de manière à dépasser l’IA générative fondée sur l’apprentissage supervisé
Les trois étapes de la découverte
- La découverte consiste à essayer plusieurs choses, à voir ce qui fonctionne, puis à conserver ce qui a le mieux marché
- L’évolution par sélection naturelle, la méthode scientifique, ainsi que la vie quotidienne et l’apprentissage fonctionnent tous en essayant puis en mémorisant ce qui marche
- En psychologie, on appelle cela apprentissage instrumental ou conditionnement opérant, et en apprentissage automatique on appelle cela apprentissage par renforcement
- Même dans la planification et la recherche combinatoire, l’idée de la découverte comme « générer et tester » fonctionne
- L’essence de la découverte est de combiner trois étapes : variation, évaluation et conservation sélective
- Avec le seul apprentissage supervisé, il n’existe aucun moyen d’évaluer les productions à l’exécution ; sans évaluation, il n’y a pas de conservation sélective, et donc pas de découverte
- La nouveauté peut apparaître brièvement, mais si sa valeur n’est pas reconnue, elle disparaît et se perd
Évaluation, objectifs et autonomie
- Si un humain produit plusieurs images avec une IA générative et en choisit une qui lui plaît, le système humain + IA accomplit alors la découverte
- Lorsque l’objectif est clair, l’évaluation est également possible : certains coups mènent au mat, certaines étapes mènent à une preuve, certains comportements mènent à une récompense élevée
- Certains génotypes produisent davantage de réplications, et certaines théories expliquent mieux les données
- La variation n’a pas besoin d’être totalement aléatoire, et un bon scientifique ne choisit pas au hasard les théories à tester
- Si l’emplacement de la réponse est entièrement déterminé, il ne s’agit pas d’une découverte ; la découverte exige de l’incertitude
- Les mises à jour de poids par rétropropagation sont déterministes, mais les poids sont initialisés avec de petites valeurs aléatoires, donc il existe une variation
- Cette initialisation aléatoire est une forme nécessaire de variation qui doit être correctement réalisée pour obtenir de bonnes performances
- Dans la rétropropagation, la variation ne se produit qu’une seule fois lors de l’initialisation du réseau, donc son effet est temporaire, et le réseau peut ensuite perdre sa capacité d’apprentissage
- La « continual backpropagation » réinitialise parfois les neurones moins utilisés avec de petits poids aléatoires afin que la variation se poursuive et que la plasticité soit maintenue
- La découverte nécessite une évaluation venant des humains ou d’objectifs explicites, et une autonomie complète est possible lorsque des objectifs explicites fournissent cette évaluation
- Si l’on veut toutes les capacités d’un scientifique IA, il faut partager les objectifs pour que l’IA crée, évalue et découvre, et participe à l’atteinte de ces objectifs
1 commentaires
Commentaires sur Hacker News
Les applications les plus réussies, comme le code, ne viennent pas d’un pur LLM/modèle génératif, mais du fait d’avoir bouclé la boucle avec un harnais de type agentique
La boucle génération-test-amélioration sélective est le schéma central du travail scientifique, et les LLM + l’apprentissage par renforcement avec récompense vérifiable + les retours d’exécution du compilateur/terminal reproduisent assez bien ce processus
Cela se rapproche d’une boucle de rétroaction Fisher/Box implémentée sur des systèmes de calcul modernes (https://www-sop.inria.fr/members/Ian.Jermyn/philosophy/writi...), et le LLM n’en est qu’un composant
J’aurais aimé que Sutton parle du tableau d’ensemble actuel, plutôt que de ne traiter que des LLM/de la rétropropagation. Je me demande vraiment si ce type de boucle peut au moins partiellement automatiser la découverte
La découverte implique davantage d’éléments, et on ne sait toujours pas clairement d’où viennent les modèles/hypothèses initiaux ni comment sont choisies les mises à jour. J’ai vu récemment que Patterns of Discovery de Hanson abordait cette direction, je ne l’ai pas encore lu, mais je me demande s’il contient des indices mécaniques
Avec le seul apprentissage par renforcement, il est difficile d’atteindre la récompense, ce qui pose un gros problème pour apprendre une tâche par pur renforcement. Les humains aussi résolvent les problèmes de découverte en combinant les signaux de supervision appris dans les livres et l’exploration pour résoudre des problèmes, et même quelqu’un de très intelligent aura du mal à obtenir des résultats remarquables sans aucune formation initiale en mathématiques. Le bootstrap, c’était de l’exploration dont le coût avait déjà été payé dans le passé
Mais j’y vois le même problème que celui rencontré par les algorithmes évolutionnaires. On peut générer des solutions candidates jusqu’à épuisement de l’argent, mais il faut toujours évaluer ces solutions. Il faut une fonction de fitness, ce qui veut dire qu’il faut au moins connaître la forme générale de la solution. Si quelqu’un connaît des travaux sur des fonctions de fitness plus ouvertes, j’aimerais les lire
À cause de ces limites mathématiques, les LLM ne sont peut-être pas la voie vers une vraie AGI, mais à l’heure actuelle, franchement, cela ne me semble pas très important
J’aime vraiment cette manière de présenter les choses : « les nouveautés générées doivent être évaluées pour qu’il y ait créativité. Sans évaluation ni conservation du meilleur résultat, rien n’est créé. La nouveauté apparaît brièvement, mais si sa valeur n’est pas reconnue, elle disparaît et se perd »
Beaucoup de gens dans les commentaires sur Twitter, et probablement certains ici aussi, semblent ne pas avoir lu au-delà de l’introduction. Il ne dit pas que les systèmes d’IA ne peuvent pas faire preuve de créativité et de découverte, mais que l’IA générative sans harnais ne peut pas le faire
Cela signifie qu’il faut un autre système capable de reconnaître et de mémoriser la valeur des nouvelles idées. Il donne aussi des exemples où cette étape de reconnaissance de la valeur est automatisée, permettant d’atteindre créativité et découverte dans un système entièrement automatisé par définition
Sauf erreur de ma part, cet argument semble ne s’appliquer qu’à l’ère pré-entraînement d’origine (par ex. GPT 1~4). Les paradigmes de post-entraînement et d’apprentissage par renforcement ne font-ils pas explicitement variation, évaluation et conservation sélective ?
Je me demande si c’est le signe avant-coureur d’un basculement de Keen Tech vers l’approche Ineffable Intelligence de David Silver
Il y a donc bien évaluation et conservation, mais pas de variation ni de « planification »
Cela ne veut pas dire qu’on ne peut pas utiliser les LLM. AlphaEvolve fait exactement cela. Il utilise simplement un planificateur évolutionnaire externe très simple. Son point essentiel est que notre planificateur reste encore « stupide », et qu’il faut investir davantage là-dedans
Quand on guide itérativement un LLM dans Claude Code, c’est en quelque sorte l’utilisateur qui joue le rôle de planificateur externe, et cela fonctionne bien aussi
La manière de poser le problème à propos d’AlphaGo et de ce type de modèles d’IA générative semble étrange.
AlphaGo a été soumis à une évaluation stricte définie de l’extérieur, il ne l’a pas créée lui-même.
Les modèles d’IA générative aussi peuvent réussir dans de nombreux domaines lorsqu’ils sont soumis à une évaluation stricte venue de l’extérieur. Ils réussissent aussi bien sur de simples tâches de programmation qu’en mathématiques de pointe (présentation récente d’un contre-exemple à une conjecture), ou encore dans l’écriture de code kernel plus optimisé, ce qui est particulièrement frappant.
Dans les domaines où les solutions sont extrêmement complexes mais où l’évaluation est relativement moins complexe, il y a aussi beaucoup d’apprentissage par renforcement, et une sélection de trajectoires de découverte et de type « quasi évolutif » se produit bel et bien.
C’est pourquoi la comparaison avec AlphaGo paraît étrange. AlphaGo recevait, dans un domaine étroit, une évaluation stricte fournie par une source extérieure — les humains — et indépendante de lui. Les IA génératives peuvent elles aussi produire des résultats assez étonnants lorsqu’une telle évaluation leur est donnée.
Plus étrange encore, dans bien des cas, l’innovation et le progrès n’exigent pas de véritables idées nouvelles, mais viennent d’une exécution en couches, de très haute qualité, de méthodes, tactiques et idées différentes. Dans de nombreux domaines, notre savoir collectif est extrêmement clairsemé et complexe ; pouvoir recombiner de manière sélective des outils, modèles et idées avec une grande qualité est donc très puissant.
Avec un horizon de recherche fini (temps, ressources), il y a un monde d’écart entre le fait que les « bons choix » représentent 1 % ou 3 %.
Plus important encore, ce qui précède ne concerne pas l’intelligence, mais une sorte d’agriculture austère de solutions appliquée aux problèmes importants et précieux que nous avons. La plupart des débats sur l’AGI et l’intelligence semblent passer à côté de ce fait simple. C’est comme l’analogie classique selon laquelle le fait qu’un avion ne vole pas comme un oiseau ou qu’un sous-marin ne nage pas n’a rien à voir avec leur utilité.
Enfin, pensez-vous vraiment que ces systèmes ne puissent pas, en moyenne, mieux faire que les problèmes auxquels les gens ordinaires sont confrontés toute leur vie ? Dans un monde où l’on obtient un diplôme avec 60 à 70 % à des examens de problèmes généraux en science ou en médecine, comment faut-il définir l’intelligence humaine ?
Il existe aussi des oiseaux, comme l’albatros, qui volent presque sans battre des ailes.
Une grande partie du deep learning relève, à mes yeux, de la généralisation compositionnelle. Les modèles apprennent des éléments réutilisables — abstractions, styles, procédures, contraintes, etc. — puis les recombinent d’une manière qui n’est jamais apparue comme un tout dans les données d’entraînement.
Donc même si les matériaux viennent des données passées, la composition finale peut être nouvelle dans un sens significatif.
J’ai du mal à suivre précisément son idée. Veut-il dire a) qu’il faut un nouvel algorithme fondamental qui intègre directement l’objectif, c’est-à-dire les « préférences », dans la phase d’entraînement, ou b) qu’il faut orienter le modèle entraîné vers un objectif lorsqu’il itère ?
Si c’est a), il n’a pas proposé un tel algorithme, et je ne vois même pas comment quantifier un objectif abstrait à ce niveau si bas. A-t-il proposé un tel algorithme et ai-je mal lu ? Si c’est b), cela existe déjà. C’est le cas d’AlphaEvolve et de plusieurs exemples qu’il cite, et, pour le dire un peu sèchement, il suffit d’entrer
/goalet de lancer.Je pense aussi qu’il est catégoriquement faux de dire que les LLM ne peuvent pas produire quelque chose de bon et de nouveau. On peut toujours dire que « ce n’est pas nouveau, c’est seulement dérivé », mais si, par exemple, j’ai créé un langage de programmation avec un LLM et qu’il fonctionne bien pour mon usage, n’est-ce pas quelque chose de nouveau et de bon ? Cela voudrait-il dire qu’en dehors de FORTRAN, aucun autre langage n’est nouveau ?
Tout est dérivé, et on peut mettre le LLM dans la boucle qui évalue les choses qu’il a essayées. Il n’est pas assez obtus pour se tromper à ce point, donc j’ai l’impression de mal comprendre quelque chose.
AlphaGo évalue les coups possibles et utilise la découverte pendant l’itération.
Claude Code aussi utilise la découverte lorsqu’il génère des scripts puis évalue s’ils fonctionnent.
Il dit qu’en science et en ingénierie aussi, il faut laisser les systèmes d’IA faire eux-mêmes l’évaluation et l’itération, comme on le fait avec le code.
En gros, c’est de l’ingénierie de harnais pour l’ingénierie.
https://youtu.be/ThFq87Rp21s?si=SrKj72_X8bjnB6ED
Vers 35 minutes.
Quand on emploie des mots comme « créatif » à propos de l’IA, il faut être très précis.
L’IA peut-elle créer de l’art ? Elle peut produire quelque chose d’agréable sur le plan sensoriel. Mais l’art consiste au fond à transmettre des émotions et une sensibilité humaines. Même entre humains, la compréhension de l’art n’est pas universelle. Les « émotions et la sensibilité », donc l’art, peuvent être profondément liées aux croyances et aux expériences partagées d’un groupe particulier.
Peut-elle être créative dans des domaines non subjectifs comme les mathématiques ou la science ? Einstein a dérivé la relativité générale grâce à des expériences de pensée créatives. Si une IA, en testant plusieurs cadres mathématiques pour résoudre un problème révélé par l’expérience, produisait les équations de champ de la relativité générale, serait-ce créatif ? Peut-être, mais certainement pas de la même manière.
Si la question est de savoir si une machine peut faire de l’art, au final quelqu’un a bien dû allumer cette machine et la concevoir pour qu’elle en fasse ; on peut donc aussi dire que ce sont cette ou ces personnes qui font de l’art.
Historiquement, à la question « x est-il de l’art ? », la réponse a toujours fini par être « oui ». Je ne sais pas pourquoi les gens tombent sans cesse dans le même piège.
L’article Wikipédia sur l’art commence ainsi :
« Art is a diverse range of cultural activity centered around works utilizing creative or imaginative talents, which are expected to evoke a worthwhile experience »
https://en.wikipedia.org/wiki/Art
Donc l’IA aussi peut faire de l’art, puisqu’il suffit qu’elle provoque une réaction émotionnelle chez le récepteur.
Le vrai problème, c’est que la capacité du modèle à suivre les prompts est très limitée. Le niveau de détail que l’on peut spécifier dans la conception d’une scène est bien trop grossier. On peut donc obtenir l’effet de « slop », avec plein de détails de pastiche générés pour meubler, mais pas des œuvres où chaque objet secondaire est placé intentionnellement pour renforcer le message.
https://en.wikipedia.org/wiki/The_Awakening_Conscience
En gros, c’est la version experte du problème « dessine-moi un pélican à vélo ».
Dans certaines situations, on a besoin de ce niveau de contrôle créatif, et les générateurs d’images actuels en sont encore loin.
Et sans ce contrôle, ils ne peuvent pas atteindre ce niveau de méta-créativité qui consiste à créer de nouvelles esthétiques faisant date dans la culture, comme l’ont fait et le font encore les grands artistes.
Ils veulent juste de la dopamine. Réfléchir fait mal, alors ils préfèrent ne pas le faire.
Je ne pense pas que l’apprentissage automatique ne puisse pas être créatif ni faire des découvertes. La créativité et la découverte consistent au fond à penser en même temps à des concepts justes qui semblent éloignés les uns des autres, tandis que la pensée algorithmique traite de concepts plus manifestement liés.
Même sans LLM, un modèle peut générer des idées aléatoires, les classer, puis produire le meilleur résultat.
Je pense simplement que les humains sont meilleurs pour ce genre de chose, et que l’apprentissage automatique est meilleur pour la pensée algorithmique. Ici, « meilleur » veut dire plus efficace et plus agréable pour nous ; il peut aussi mieux évaluer ce qui nous attire subjectivement, y compris chez nous-mêmes, c’est-à-dire le goût.
L’apprentissage automatique exige plus de généralisation que la programmation, mais je pense qu’il devrait malgré tout rester optimisé surtout pour des tâches logiques : développement logiciel, traduction, outils pour l’art et la découverte, etc.
Ce n’est pas grave. Les LLM sont utiles même tels qu’ils sont aujourd’hui. Même s’ils ne produisent jamais les mathématiques ou la physique de la génération suivante.
Parmi les humains aussi, les cerveaux qui ont produit des sauts conceptuels par paliers sont si rares que nous nous en souvenons par leur nom.
Lien alternatif : <https://xcancel.com/RichardSSutton/status/206121608774494665...>
De mon côté, j’ai actuellement une erreur 502 « Bad Gateway », mais ça finira sans doute par revenir.