Recherche en IA : une leçon encore plus amère

(yellow-apartment-148.notion.site)

1 points par GN⁺ 2024-06-16 | 1 commentaires | Partager sur WhatsApp

Ajouter à un modèle de base une capacité de recherche (search) qui consacre davantage de temps de raisonnement à l’inférence peut ouvrir une autre trajectoire de progrès en IA que celle consistant à attendre la sortie de modèles plus grands
Leela Chess Zero a battu Stockfish grâce à l’auto-jeu et au deep learning, mais Stockfish a repris l’avantage en combinant un réseau neuronal plus petit à un puissant pipeline de recherche
Ici, la recherche ne désigne pas le compute d’entraînement, mais la capacité à améliorer la résolution de problèmes en utilisant davantage de compute d’inférence ; elle ne se limite pas au MCTS ou à l’AlphaBeta façon échecs
La recherche permet de concentrer le compute uniquement là où c’est nécessaire, donnant à des entreprises comme Pfizer la possibilité de payer directement le coût d’inférence au lieu d’attendre un modèle plus grand d’OpenAI
Si la recherche est d’abord appliquée à la recherche en IA, elle pourrait servir à trouver des algorithmes de recherche et des architectures de modèles plus efficaces, ce qui suggère qu’une IA auto-amélioratrice est peut-être plus proche qu’on ne le pense

La « leçon encore plus amère » montrée par Leela et Stockfish

Leela Chess Zero est un moteur d’échecs qui a commencé en ne connaissant que les règles, puis s’est entraîné via des milliards de parties en auto-jeu
- Sans encoder directement les connaissances humaines sur les échecs, il a appris par lui-même, au point de jouer des coups qui remettaient en cause le dogme échiquéen humain
- Il a montré des sacrifices à long terme et des coups créatifs, et a remporté le championnat du monde
La force de Leela venait du deep learning, illustrant bien la puissance du calcul à grande échelle et de l’apprentissage décrite dans The Bitter Lesson
- Cela rejoint l’idée que des représentations apprises par le système lui-même peuvent devenir plus puissantes que le savoir conçu par des humains
En 2018, l’équipe de Leela a observé que des réseaux plus grands étaient systématiquement plus forts que des réseaux plus petits
- Les réseaux plus grands montraient même des propriétés émergentes donnant l’impression de voir plusieurs coups à l’avance, sans recherche explicite
En 2020, pour entraîner un réseau plus grand, l’équipe Leela a rassemblé du compute provenant de donateurs d’entreprise et de connaissances équipées de GTX 1070, entre autres ; elle a préparé son plus gros modèle juste avant le championnat du monde, mais a perdu

Le retour de Stockfish : petit modèle, recherche puissante

Stockfish était le programme d’échecs dominant des années 2010 et, en 2019, ressemblait encore à une IA d’ancienne génération, où des humains avaient injecté leur connaissance du jeu dans le code à l’aide de techniques mathématiques
Leela a battu Stockfish en 2019 grâce au deep learning et à une approche tabula rasa, mais Stockfish a ensuite repris les techniques de deep learning de Leela pour entraîner un modèle bien plus petit
- Ce modèle était des centaines de fois plus petit que le meilleur modèle de Leela
- Stockfish a inséré ce petit modèle dans son pipeline de recherche existant, puis a rapidement écrasé Leela
Cette victoire semble aller à l’encontre des lois de scaling centrées sur des modèles toujours plus grands
- Le modèle était plus petit, mais l’algorithme de recherche était plus efficace, exploitait mieux le hardware et pouvait regarder plus loin
La « leçon encore plus amère » est qu’il ne faut pas sous-estimer la puissance de la recherche en IA, même à l’ère flamboyante du deep learning

Définition de la recherche pour les modèles de base et limites actuelles

Les modèles de base comme GPT-4 manquent de recherche au sens décrit dans cet article
- Il n’est pas possible aujourd’hui de demander à GPT-4 de réfléchir à un problème pendant un mois en espérant obtenir une meilleure réponse
- Lui demander de « réfléchir step-by-step » peut améliorer les performances, mais les gains décroissent rapidement
La recherche pour les modèles de base est la capacité à mieux résoudre des problèmes en utilisant davantage de compute d’inférence plutôt que du compute d’entraînement
- Elle ne désigne pas uniquement le MCTS ou la recherche AlphaBeta façon échecs
- La réflexion introspective humaine et la collaboration entrent aussi dans cette définition
Les chercheurs en IA, les économistes et les CEO sous-estiment peut-être à quel point il est proche et important de donner aux modèles de base une capacité de recherche
L’importance de la recherche se résume en trois points
- Sa mise en œuvre ne nécessitera pas forcément des modèles plus grands
- Elle permet de concentrer le compute uniquement là où c’est nécessaire
- Elle peut accélérer l’automatisation de la recherche en IA

Le scaling n’est peut-être pas une condition préalable à la recherche

Une hypothèse largement répandue veut qu’il faille des modèles plus grands pour rendre possible la recherche dans les LLM
- Sholto Douglas a déclaré qu’il fallait davantage de « nines » en fiabilité des LLM pour gérer une pensée de long terme
- Leopold Aschenbrenner estime que le préentraînement contient peut-être déjà les ingrédients nécessaires à la recherche, et qu’il faut « un peu plus de scaling » et des tokens supplémentaires
Mais l’exemple des échecs ébranle l’idée que le scaling soit une condition préalable à la recherche
- DeepMind a étudié, dans un algorithme d’échecs sans recherche, le fait que des comportements d’anticipation puissent émerger naturellement sans échafaudage externe
- Mais comme il existe déjà des algorithmes de recherche pour les échecs, il y a peu de raisons d’attendre qu’une capacité inefficace à regarder en avant apparaisse par accident dans un grand modèle
Scaling Scaling Laws with Board Games montre qu’en multipliant par 10 le compute à l’entraînement, on peut réduire d’environ 15 fois le compute au test
- Ce résultat s’observe même jusqu’à des modèles à un seul neurone
- Cela rejoint le cas où Stockfish a battu Leela avec un modèle plus petit de trois ordres de grandeur
Les modèles actuels sont peut-être déjà assez grands pour permettre la recherche, voire plus grands que nécessaire

Économie de la recherche et potentiel d’automatisation de la recherche en IA

La recherche permet d’arbitrer entre compute à l’entraînement et compute à l’inférence, et de ne dépenser que dans des domaines précis
L’exemple de Pfizer montre comment la recherche peut mener à une dépense de compute spécifique à un domaine
- Si Pfizer veut mettre au point un nouveau médicament, l’entreprise peut attendre qu’OpenAI sorte en 2030 un modèle mille fois plus grand
- Ou bien elle peut tenter d’obtenir dès maintenant des capacités comparables en utilisant mille fois plus de compute d’inférence
Si l’on suppose que Pfizer dépense 100 000 dollars par an pour GPT-4, alors atteindre en 2030 un niveau de capacité proche de l’ASI exigerait d’augmenter son budget IA de trois ordres de grandeur, jusqu’à 1 milliard de dollars par an
- Le budget R&D de Pfizer est déjà de 12 milliards de dollars
- En revanche, entraîner un modèle de même niveau pourrait coûter des milliers de milliards de dollars à OpenAI
La trajectoire vers une ASI en 2030 décrite par Leopold Aschenbrenner passe par de gros clusters, la hausse des revenus, d’importants emprunts d’entreprise, puis la construction par l’État de clusters encore plus vastes, jusqu’à ce que les modèles deviennent assez grands pour faire eux-mêmes de la recherche en IA
- Dans un monde sans recherche, cette trajectoire semble plausible
Dans un monde où la recherche fonctionne, une autre trajectoire devient possible
- La recherche fonctionne sur les modèles existants
- Les grands laboratoires et les gouvernements l’appliquent immédiatement à la recherche en IA ou au renseignement extérieur
- Le compute d’inférence étant limité, les gouvernements ou grands laboratoires en réservent l’usage à la sécurité ou à la recherche en IA
- Les progrès de l’IA fondés sur la recherche découvrent des algorithmes de recherche et des architectures de modèles plus efficaces
- Comme la recherche ne requiert pas davantage de données d’entraînement, le problème de la barrière des données s’atténue
- Cela mène à la perspective qu’une explosion d’intelligence pourrait commencer non pas en 2030, mais dès l’année suivante
Utiliser la recherche pour la recherche en IA, contrairement à la découverte de nouveaux médicaments, pourrait contribuer directement à produire une IA encore meilleure
- Les premiers modèles renforcés par la recherche n’auront peut-être pas l’agentivité humanoïde consistant à utiliser des outils ou exécuter des tests
- Ils pourraient néanmoins, comme des « armchair theorists » surhumains, faire avancer les algorithmes
- Si GPT-4, entraîné sur 1 trillion de tokens pour 15 millions de dollars, trouvait un algorithme réduisant de 3 % le coût d’entraînement ou augmentant de 10 % l’efficacité de la recherche, l’investissement pourrait être rentabilisé
Cette prévision repose sur deux hypothèses
- Il existe des algorithmes de recherche pour modèles de base capables d’apporter des gains de performance comparables à ceux observés dans les systèmes RL
- La recherche convertit plus efficacement le capital existant en intelligence que le simple scaling des modèles
Contrairement aux lois de scaling des années 2020, on dispose encore de peu de preuves solides sur les performances et l’économie de la recherche ; l’extrapolation à partir de l’expérience de l’apprentissage par renforcement dans les jeux reste donc ouverte

1 commentaires

GN⁺ 2024-06-16

Avis sur Hacker News

L’efficacité de la recherche va de pair avec la qualité de la fonction de valeur. Mais les fonctions de valeur actuelles sont très spécifiques à chaque domaine, et les preuves qu’on puisse en créer une qui se généralise bien à de nouveaux domaines me semblent faibles, voire inexistantes.
Ce texte fait en pratique un saut conceptuel de « il existe une bonne fonction de valeur pour les échecs » à « on peut créer une bonne fonction de valeur qui rende possible la recherche pour la recherche en IA ».
Bien sûr, si c’était le cas, ce serait formidable, une sorte de Graal, mais je doute que ce soit vraiment possible. En plus, si l’exécution d’un LLM ajoute un coût d’inférence 1000 fois ou 10000 fois plus élevé, les coûts deviennent absurdes.
- Je pense qu’il existe déjà, dans une certaine mesure, des fonctions de valeur généralisées, c’est-à-dire des benchmarks LLM. Le problème est qu’il n’existe pas d’approximation assez bon marché pour faire de la recherche arborescente au moment de l’inférence.
  Aux échecs, l’avantage matériel est une assez bonne approximation de la victoire, et il se calcule très facilement, donc cela fonctionne.
- Je me demande si vous croyez qu’une percée en « IA généraliste » va arriver. Ce que vous décrivez exprime bien, à mon sens, pourquoi je suis sceptique vis-à-vis des chercheurs en IA qui pensent que « nous y arriverons bientôt ».
  D’ailleurs, ce qu’est exactement une IA généraliste ne semble même pas très bien défini.
- Dans certains domaines, la self-evaluation peut suffire à elle seule. L’IA essaierait alors plusieurs fois et s’autoévaluerait de manière répétée pour trouver une réponse qui obtient un meilleur score selon ses propres critères.
- Tout ce qu’il faut à une bonne fonction de valeur, c’est une simulation de haute qualité de la tâche concernée.
  Dans certains domaines, cela marche mieux. Par exemple, les prouveurs de théorèmes en mathématiques indiquent précisément si l’on a réussi ou non.
  Accessoirement, on pourrait ajouter à Lean des fonctionnalités proches de la recherche pour aider les chercheurs humains, ce qui pourrait aussi contribuer aux progrès de l’IA en mathématiques.
- Même avec un nombre de coups légaux limité dans une position donnée, et malgré la possibilité d’élaguer tôt et fortement les branches perdantes, Stockfish peut très bien évaluer des millions de positions lorsqu’il regarde 40 coups à l’avance.
  Le coût d’évaluer des millions de suites de texte produites par un LLM pour choisir une réponse optimale est difficile à imaginer.
  Là où la recherche arborescente avec des LLM pourrait avoir davantage de sens, ce n’est pas au niveau des alternatives mot par mot, mais dans un raisonnement qui explore des chemins plus grossiers du type « et si l’on pensait de cette manière ». Malgré tout, les coûts de génération, d’évaluation et d’élagage peuvent vite devenir ingérables, et cette approche biaisée semble, à certains égards, aller frontalement à l’encontre de la leçon amère plutôt que s’y conformer.
C’est un problème vraiment difficile à résoudre de manière générale, et même des chercheurs brillants comme Yann LeCun cherchent encore quel est le rôle de la recherche dans la création d’une AGI.
Le pari actuel de Yann semble être d’utiliser les Joint Embedding Predictive Architectures, c’est-à-dire JEPA, pour l’apprentissage de représentations afin de construire des modèles du monde robustes, puis de laisser des agents tester leurs théories en essayant différentes actions.
Cet article [0] résume bien sa vision potentielle, même si, bien sûr, c’est beaucoup plus difficile qu’un simple « recherche + transformeur ».
Il y a l’hypothèse que le langage représente suffisamment bien le monde pour qu’un agent puisse y effectuer une recherche efficacement et produire des idées nouvelles et utiles. Cela ressemble à une question ouverte. Que savent les LLM ? Savent-ils vraiment quelque chose ? Les chercheurs doivent le découvrir.
Si les LLM actuels peuvent simuler un modèle du monde suffisamment riche, alors la recherche peut effectivement devenir utile ; mais s’ils ne font qu’imiter, on ne fait que chercher sur des croyances peu fiables.
C’est pourquoi la vidéo est importante : elle prouve que les humains peuvent extraire des modèles du monde utiles à partir de séquences d’images.
Le langage et les échecs ont des espaces d’action essentiellement discrets, ce qui permet d’entraîner des modèles génératifs qui reconstruisent toute l’entrée pour calculer la perte. Quand on passe à la vidéo, les transformeurs doivent s’étendre à des distributions continues, ce qui rend la construction de modèles prédictifs du monde utiles bien plus difficile.
[0]: https://arxiv.org/abs/2306.02572
- J’ai l’impression que l’idée même que l’AGI soit possible vient d’un imaginaire profond et très répandu qui voit le cerveau humain comme un ordinateur. Mais le cerveau humain n’est pas un ordinateur.
  Même avec le programme le plus complexe qui soit, cela reste une machine de Turing, et les humains ne le sont fondamentalement pas.
  https://aeon.co/essays/your-brain-does-not-process-informati...
  La métaphore du traitement de l’information appliquée à l’intelligence humaine domine aujourd’hui la pensée humaine, aussi bien dans la vie quotidienne que dans la science. Mais, au fond, ce n’est qu’une métaphore de plus que nous avons créée pour comprendre ce que nous ne comprenons pas réellement, et elle sera un jour remplacée par une autre métaphore ou par de véritables connaissances.
  Même si nous écoutons tous les deux la 5e de Beethoven au même concert, les changements qui se produisent dans mon cerveau et dans celui de quelqu’un d’autre sont presque certainement complètement différents. Ils se produisent sur des structures neuronales façonnées par les expériences uniques de chacun.
  C’est pourquoi, lorsque deux personnes entendent la même histoire, elles ne la répètent pas de la même façon, et leurs répétitions divergent de plus en plus avec le temps. Il ne se crée pas une « copie » de l’histoire : chaque personne qui l’a entendue est transformée, dans une certaine mesure.
- À la question « savent-ils vraiment quelque chose ? », je répondrais oui. Mais je pense aussi qu’ils croient savoir des choses totalement fausses.
  Le trait le plus marquant que j’ai observé chez les LLM est qu’ils gèrent mal la logique et les mathématiques. Même lorsqu’il vaudrait mieux répondre « je ne sais pas », ils fournissent avec assurance des informations manifestement fausses. Il me semble très peu probable que cela ait été voulu à la conception.
Le texte part d’un postulat intéressant, mais il reste insuffisant car il ne définit pas ce qu’est la recherche dans le contexte des LLM, et n’explique pas non plus l’affirmation selon laquelle « Pfizer pourrait accéder aux capacités de GPT-8 d’aujourd’hui avec davantage de compute d’inférence »
Même en tant que praticien de l’IA, j’ai eu du mal à suivre. Il faudrait quelqu’un capable d’expliquer plus clairement ce que veut dire l’article original
La recherche dans les moteurs d’échecs, c’est-à-dire le fait de regarder plusieurs coups à l’avance, semble possible parce qu’il existe une fonction objectif permettant de classer les résultats. Il y a une métrique pour juger si un coup potentiel est « meilleur », ce qui relève généralement d’une caractéristique propre à l’apprentissage par renforcement. Je me demande si les LLM disposent d’une telle métrique
- C’est aussi le point qui me laisse très perplexe
  À supposer, cela pourrait vouloir dire qu’on exécute quelques tokens en avant pour chacun des tokens les plus probables du modèle, qu’on suit quelle branche se comporte le mieux par rapport aux données d’entraînement, puis qu’on utilise cette information pour l’apprentissage
  Mais la recherche devrait améliorer l’efficacité au moment de l’inférence, et cette approche ne le fait pas
- C’est probablement ce qu’ils veulent dire, et je ne pense pas qu’une telle métrique existe. Les gens tenteront des évaluations adversariales, mais il me semble probable qu’on converge finalement vers une prédiction moyenne
  Par ailleurs, l’inférence des LLM n’est pas bon marché. Le compromis entre coût d’inférence et coût d’entraînement varie énormément selon l’application. Il peut exister des domaines où il est logique d’accepter un coût d’inférence 100 ou 1000 fois plus élevé en échange d’un coût d’entraînement divisé par 10
Charlie Steiner l’avait déjà relevé il y a 5 ans sur Less Wrong
Si l’on entraîne GPT-3 sur un ensemble de manuels de médecine et qu’on lui demande de donner un traitement contre Alzheimer, il ne donnera pas un traitement : il dira ce que les humains ont dit à propos du traitement d’Alzheimer
L’idée est qu’il devient moins un oracle logique qu’un oracle intuitif produisant des récits plausibles à partir d’associations présentes dans les données d’entraînement
Le fait que le traitement d’Alzheimer soit difficile signifie qu’il manque quelque chose à cette conception, et que ce quelque chose est la recherche. Cela ne veut pas dire qu’il est impossible qu’un réseau de neurones produise directement un traitement, mais il semble qu’il faudrait qu’une dimension « traitement d’Alzheimer » existe déjà dans le modèle entraîné
Si l’on ne connaît pas encore le traitement, l’approche réaliste consiste à parcourir lentement l’espace logique par plusieurs étapes de raisonnement, à réduire progressivement les possibilités, puis à trouver enfin ce qui satisfait les conditions. Autrement dit, à résoudre un problème de recherche
Si une IA peut énoncer un traitement contre Alzheimer, il est très probable qu’elle soit soit en train de chercher explicitement un traitement, soit que son état interne effectue implicitement une recherche
https://www.lesswrong.com/posts/EMZeJ7vpfeF4GrWwm/self-super...
- Je me demande si l’on peut généraliser cela sans le limiter à GPT, en disant par exemple :
  « Si l’on entraîne une machine logique sur un ensemble de manuels de médecine et qu’on lui demande de donner un traitement contre Alzheimer, elle ne donnera pas le traitement, mais ce que ces manuels disent à propos du traitement d’Alzheimer »
  Probablement pas. GPT semble globalement limité à répéter et recombiner ce qu’il a lu, mais un autre algorithme doté d’une meilleure logique pourrait, en pratique, faire de la méta-recherche. Autrement dit, il pourrait prendre tous les résultats d’expériences sur Alzheimer obtenus jusqu’ici et réduire l’espace de solutions davantage que ne l’ont fait les humains
  Les humains n’ont peut-être pas la capacité de garder en tête tous les résultats pertinents en même temps, mais un ordinateur pourrait le faire
  Demander à GPT de « réfléchir étape par étape » améliore ses performances, donc il possède clairement une certaine forme de logique nécessaire. Il s’en sort aussi bien avec des demandes du type « voici des données, transforme-les »
  La limite tient à la qualité de la logique et à la taille de la fenêtre dans laquelle cette transformation peut être effectuée. Cela dit, les données mémorisées pendant l’entraînement peuvent être beaucoup plus nombreuses que la fenêtre de tokens en entrée, ce qui peut offrir un contournement partiel
  S’il possède ces deux capacités, il est difficile d’affirmer que le passage à l’échelle est impossible. Je ne sais pas si l’on peut exclure qu’une évolution de GPT trouve un traitement contre Alzheimer dans les données existantes, et un système mieux adapté à cette tâche n’aurait peut-être même pas besoin d’être une AGI
  Bien sûr, les composants nécessaires à la solution doivent se trouver dans les données. Mais la citation semble exclure la possibilité même d’identifier un traitement, même si les données contiennent toutes les informations nécessaires et qu’il ne manque que la solution finalisée
La recherche est presque certainement nécessaire, et ceux qui défendent des clusters à mille milliards de dollars devraient désormais discuter avec les personnes qui ont créé des moteurs d’échecs surhumains capables de tourner même sur smartphone
Car quelqu’un pourrait trouver une façon de battre un cluster à mille milliards de dollars avec un cluster à un million de dollars, ou avec 500 000 clusters à un million de dollars
Ma conclusion sur les échecs est que le facteur de branchement n’y devient pas assez grand pour rendre impossible une approche en largeur. Le facteur de branchement médian, c’est-à-dire le nombre de coups légaux, culmine autour de 40 et reste généralement proche de 30
Le plus grand nombre de coups que j’aie vu dans une position de partie réelle était 147, mais à ce moment-là presque tous les coups donnaient mat
La raison pour laquelle il a longtemps été difficile de rendre les moteurs de go surhumains est que le facteur de branchement y était bien plus élevé qu’aux échecs
Le MCTS étant moins exhaustif, il est logique qu’une recherche complète puisse trouver des faiblesses et les exploiter. La question est de savoir si une approche en largeur peut être appliquée à des jeux et situations plus vastes, et je pense que la réponse est clairement non
Le facteur de branchement des situations du monde réel est, contrairement aux échecs, supérieur de plusieurs ordres de grandeur
Cela dit, contrairement aux échecs, dans le monde réel la plupart des petites décisions importent peu. Pour aller de New York à Los Angeles, choisir de conduire, de prendre l’avion ou de marcher est très important. Mais savoir si l’on sort de chez soi en avançant d’abord le pied gauche ou le pied droit, ou si l’on cligne des yeux maintenant ou dans deux secondes, n’a généralement pas beaucoup d’importance
- Le facteur de branchement d’un LLM, si l’on se base sur le nombre de tokens possibles ensuite, est d’environ 50 000, à mon avis
Le texte semble assez insaisissable et trop sûr de lui dans ses prédictions sur l’avenir, mais ça paraît valoir la peine d’essayer.
« Recherche » est une généralisation de « générer et tester » et de l’échantillonnage par rejet. C’est de l’IA classique.
Quand j’ai suivi un cours d’introduction à l’IA avant l’ère dot-com, on y apprenait à écrire des programmes de recherche en Prolog.
La vitesse dépend du temps nécessaire pour générer un candidat, du temps nécessaire pour le tester, et du nombre de candidats qu’il faut essayer. Si ces éléments sont lents, l’ensemble est lent.
Un exemple d’échantillonnage par rejet avec un humain dans la boucle consiste à utiliser un générateur d’images en essayant sans cesse différents prompts jusqu’à obtenir une image qui plaît. Mais la boucle est lente, car générer une nouvelle image prend beaucoup de temps.
Si la génération d’images fonctionnait aussi vite que Google Images, cela pourrait devenir quelque chose de vraiment significatif.
La démonstration de théorèmes et le fuzzing de programmes semblent bien adaptés à une combinaison de LLM et de recherche, car ils sont automatisés, rapides et disposent de bonnes fonctions d’évaluation.
Il me semble que Google a publié un fuzzer [1] que l’on peut connecter au LLM de son choix ; je me demande si quelqu’un l’a essayé.
[1] https://github.com/google/oss-fuzz-gen
- Dans les domaines de la démonstration de théorèmes ou de la planification, les procédures de recherche connues et les « fonctions d’évaluation » sont déjà proches de limites théoriquement optimales.
  Ce qu’il faut donc, ce n’est pas une nouvelle évaluation ni une nouvelle procédure de recherche, mais de nouvelles mathématiques qui garantissent qu’il y a une raison d’essayer au départ.
  Prenons la démonstration de théorèmes : SLD-Resolution est une procédure de démonstration automatique de théorèmes, correcte et complète, pour l’inférence inductive. Pour une implémentation économe en espace, on peut utiliser une recherche en profondeur, mais elle peut boucler sur la récursion à gauche ; pour une implémentation économe en temps, on peut utiliser une recherche en largeur avec mémoïsation, mais la complexité spatiale devient exponentielle.
  Ici, une « fonction d’évaluation » ne s’applique pas. La résolution est elle-même une sorte de fonction qui évalue la vérité d’énoncés de logique formelle, ou la certitude de leur valeur de vérité.
  Et elle est correcte et complète, et semi-décidable pour des logiques bien définies. Tant qu’on ne viole pas Church-Turing, c’est ce qu’on peut faire de mieux.
  On peut améliorer l’efficacité avec une recherche heuristique. Par exemple, des tentatives ont été faites pour éviter la NP-difficulté de la relation d’inclusion, qui est une partie importante de la SLD-Resolution en pratique, et c’est là qu’intervient une fonction de coût heuristique au sens large.
  Mais il y a deux problèmes. a) utiliser une recherche heuristique signifie sacrifier la complétude, et b) en planification, il existe déjà des méthodes assez solides pour dériver des fonctions heuristiques en relaxant le problème de planification.
  La leçon est de n’en choisir que deux parmi correction, complétude et efficacité. Les approches statistiques de machine learning comme les LLM ne peuvent que choisir deux éléments différents des techniques existantes.
  En gros, pour les limites de performance globales de l’IA fondée sur la recherche, on en est désormais au point où l’on ne peut obtenir que des gains marginaux. On en restera là jusqu’à ce que quelqu’un apporte de meilleures mathématiques.
- Terence Tao, célèbre mathématicien et fervent défenseur de la démonstration de théorèmes assistée par ordinateur, pense que le machine learning ouvrira de nouvelles voies dans le domaine des démonstrateurs de théorèmes.
Je pense comprendre l’espace de jeu exploré par Leela et par Stockfish aujourd’hui. Mais je ne vois pas quel espace de possibilités l’auteur imagine que les LLM explorent.
1. les mots écrits, 2) les modèles de mathématiques, de reinforcement learning et de science des matériaux, 3) des espaces plus petits et formalisés comme l’espace de jeu des échecs, tout cela à la fois, ou autre chose ? Ce n’est pas clair. Peut-être que c’est précisé quelque part et que je l’ai manqué.
- Il semble vouloir que l’algorithme de recherche lui-même recherche de meilleurs algorithmes de recherche. Autrement dit, de l’auto-amélioration. Dans ce cas, certaines contraintes de domaines plus étroits pourraient disparaître.
Avant que les LLM ne découvrent un traitement contre le cancer, je propose de leur faire d’abord découvrir un problème plus maniable : le « cheesecake divin ».
Un cheesecake si bon que 100 chefs impartiaux le jugeraient comme le meilleur qu’ils aient jamais mangé.
Le LLM n’a qu’à explorer intelligemment un « espace des cheesecakes » beaucoup plus limité combinatoirement afin de trouver la recette de cheesecake la plus délicieuse possible.
Mais un LLM ne peut pas cuire de cheesecake et, même s’il le faisait, il ne pourrait pas en évaluer le goût.
Tant que l’IA n’aura pas résolu le problème du « cheesecake divin », il vaudrait mieux que tout le monde se calme un peu au sujet de l’AGI.
- Ces cookies étaient très bons, mais pas divins. Avec un peu d’investissement et des techniques plus modernes, je pense qu’on pourrait produire de très bonnes recettes, et peut-être même faire mieux que n’importe quel humain.
  Je pense qu’une IA pourrait créer une recette capable de gagner un concours de pâtisserie très compétitif. En revanche, battre les 100 jurés est impossible pour qui que ce soit.
  https://static.googleusercontent.com/media/research.google.c...
- Je me demande ce qu’on en penserait si la réponse était : « pour donner une réponse significative, il faut 2 semaines et 5 000 dollars ».
- Même dans les limites d’un LLM tournant purement sur ordinateur, si un LLM pouvait écrire une nouvelle vraiment excellente ou un bon texte publicitaire, cela changerait le monde.
- TikTok est la version numérique de ce problème.
- Je me demande s’il y a des gens qui pensent qu’en faisant des essais-erreurs sur des recettes de cheesecake avec un programme assisté par LLM et en les faisant évaluer par un jury, on n’obtiendrait pas le meilleur cheesecake de l’histoire.
  La partie cuisson relève de la robotique, donc la comparaison est un peu moins équitable, mais c’est déjà possible dans une certaine mesure.
Le plus gros problème que l’auteur n’a pas perçu, c’est l’ampleur du compute nécessaire ici.
Cet article revient à dire qu’en laissant assez de temps à un singe, il écrira Shakespeare. C’est vrai, bien sûr, mais l’espace de recherche est ingérable, et même si la réponse se trouve quelque part, on ne la trouvera pas dans ce chaos.
Je construis à plein temps, depuis plus d’un an, des systèmes LLM à élagage et évolutionnaires.
J’ai créé plusieurs algorithmes de « recherche » ou d’« exploration ». Le problème, c’est qu’après plusieurs étapes, un agent à qui l’on avait demandé d’étudier ou de mener des travaux en biologie se retrouve à parler de cuirassés. C’est un exemple tiré de travaux antérieurs réels.
Une seule étape est à peu près le seul cas où une fonction de recherche fonctionne réellement. Avec des agents multi-étapes, les possibilités explosent très vite vers l’infini.
Même une seule étape pose problème. Par exemple, exécuter 1 000 fois une question zero-shot demandant de résoudre un problème de code peut aider à trouver une meilleure solution, mais c’est possible parce que l’espace de recherche est limité. Cette limite est une bonne chose.
Récemment, j’ai testé plusieurs modèles LLM en lançant 10 000 inférences sur un même prompt d’entrée, en ne changeant que les paramètres d’entrée. Un prompt individuel n’a pas une infinité de réponses possibles. Il est contraint. C’est pour cela que les LLM peuvent fonctionner aujourd’hui.
Les difficultés des agents en sont un exemple. Même l’espace de recherche d’une seule étape est immense, mais à chaque mouvement d’un agent, il croît exponentiellement.
Je construis des outils et des systèmes pour résoudre ce problème, mais la recherche à grande échelle semble aussi lointaine que l’idée selon laquelle « multiplier par 100 la taille des modèles d’IA réglera le problème ».
L’autonomie n’est pas la même chose que l’intelligence ou le raisonnement.
La formule selon laquelle « Leela Chess Zero s’appelait zero parce qu’il avait commencé en ne connaissant que les règles » est courante, mais fausse.
Leela et sa lignée disposent d’un autre savoir spécifique aux échecs, indispensable à leurs performances : un modèle du monde du jeu qui représente une partie d’échecs sous forme d’arbre de jeu. La structure est découpée en un ply à chaque tour de chaque joueur.
Cet arbre de jeu est exploré par des algorithmes de recherche adversariale comme minimax ou Monte Carlo Tree Search. D’après ce que je comprends, Leela a choisi MCTS.
Modéliser plus précisément un jeu sous forme d’arbre de jeu s’applique à de nombreux jeux, pas seulement aux échecs. Mais l’arbre de jeu spécifique utilisé par les moteurs d’échecs est adapté aux jeux de plateau à deux joueurs, à somme nulle et à information parfaite, proches des échecs.
D’autres types de jeux nécessitent d’autres modèles et d’autres algorithmes de recherche. Voir par exemple le poker et Libratus [1].
À l’heure actuelle, on ne peut pas se passer de ce type d’arbre de jeu, c’est-à-dire de modèle du monde du jeu, si l’objectif est d’obtenir de bonnes performances. L’article mentionne les algorithmes sans recherche et touche brièvement à leur limite centrale : le « pourquoi ? ».
C’est aussi ce que je trouve problématique dans la leçon amère : on choisit opportunément ce que l’on considère comme connaissance de domaine, c’est-à-dire comme « modèle » au sens théorique.
Comme l’ont dit Rodney Brooks [2] et d’autres, les réseaux de neurones convolutifs ont dominé la classification d’images parce qu’ils utilisaient des couches de convolution pour instaurer l’invariance à la position. C’est un modèle de vision artificielle inventé par des humains.
C’est la même chose que les arbres de jeu, qui sont des modèles de jeu inventés par des humains, et il en va de même pour l’essentiel de ce qui a été fait jusqu’ici en IA et en machine learning. Les humains construisent des modèles du monde, de l’environnement, du domaine ou du processus, puis les ordinateurs calculent à partir de ces modèles, produisant parfois des résultats qui dépassent les humains, comme aux échecs ou au go, ou du moins des résultats impossibles à obtenir avec des solutions conçues à la main.
La leçon à retenir est ailleurs. Modèles humains + calcul machine ont résolu tous les problèmes difficiles de l’IA au cours des 80 dernières années. Et nous ne savons absolument pas faire quoi que ce soit qui s’en écarte un tant soit peu.
[1] https://en.wikipedia.org/wiki/Libratus
[2] https://rodneybrooks.com/a-better-lesson/
- Je n’ai pas encore vu d’algorithme capable de construire un modèle du monde à partir de la seule observation. J’ai vu des indices, mais rien au niveau humain.
  Cela arrivera un jour. Nous vivons une époque passionnante.

Recherche en IA : une leçon encore plus amère

La « leçon encore plus amère » montrée par Leela et Stockfish

Le retour de Stockfish : petit modèle, recherche puissante

Définition de la recherche pour les modèles de base et limites actuelles

Le scaling n’est peut-être pas une condition préalable à la recherche

Économie de la recherche et potentiel d’automatisation de la recherche en IA

À lire aussi

1 commentaires

Avis sur Hacker News