- Le débat s’étend autour de l’idée que les grands modèles de langage (LLM) vont au-delà de la simple prédiction de mots et montrent de véritables formes de compréhension et de raisonnement
- La neuroscientifique Doris Tsao estime que le machine learning a davantage révélé la nature de l’intelligence que les cent dernières années de neurosciences
- Le deep learning et l’architecture des réseaux neuronaux imiteraient le fonctionnement du cerveau humain et s’expliqueraient par le concept « comprendre = compresser »
- Les travaux de Douglas Hofstadter et Pentti Kanerva sont reliés à la structure cognitive de « seeing as » des LLM
- Des limites de l’IA et des risques éthiques — comme l’absence d’efficacité d’apprentissage comparable à celle de l’humain, d’expérience ou de conscience — restent des enjeux centraux
La polarisation des performances de l’IA
- Dario Amodei, CEO d’Anthropic, prévoit d’ici 2027 l’arrivée d’une IA plus intelligente qu’un prix Nobel en biologie, mathématiques, ingénierie et écriture
- Il présente la vision d’un centre de données comme un « pays de génies », où des millions de copies de modèles mèneraient chacune leurs propres recherches
- Sam Altman d’OpenAI affirme que le secteur est à la veille de construire une « superintelligence numérique » et que les années 2030 seront une époque totalement différente
- La plupart des outils d’IA utilisés aujourd’hui au quotidien restent pourtant limités, un peu comme Clippy dans Microsoft Office autrefois
- Zoom AI ne fournit que des suggestions simples comme « un brise-glace pour la réunion ? »
- Siri manque de capacités au-delà du réglage de rappels
- L’IA de Gmail invente des récits de voyage en Turquie où l’utilisateur n’est jamais allé
- Les lancements précipités et inégaux de l’IA ont créé un brouillard qui fait penser à du battage médiatique, alors qu’il y a en réalité de réels progrès
La révolution de l’IA dans la programmation
- Au départ, l’auteur pensait que l’IA n’avait rien à voir avec une véritable intelligence ou compréhension, mais son point de vue a changé en utilisant l’IA dans son travail de programmeur
- Écrire du code est l’une des tâches que l’IA réussit le mieux, car la structure y est plus claire que dans la prose et les résultats peuvent être vérifiés automatiquement
- L’auteur est passé d’un simple usage de l’IA à la place de la recherche d’information à la délégation de petits problèmes indépendants, puis finalement à la confier à un véritable travail exercé et entraîné toute une vie
- Les modèles d’IA absorbent en quelques secondes les détails complexes de milliers de lignes de code
- Ils repèrent des bugs subtils et coordonnent de nouvelles fonctionnalités complexes
- Il a rejoint une équipe en croissance rapide pour mieux exploiter les outils d’IA
- Les agents IA échouent à réserver des vacances ou à remplir une déclaration d’impôts, mais ses collègues écrivent l’essentiel de leur code avec l’IA et lancent parfois plusieurs agents de codage en parallèle
- En apprenant à les utiliser efficacement, il lui arrive désormais d’achever en une soirée des tâches qui prenaient auparavant un mois
- Il a créé deux apps iOS sans savoir à la base comment développer une app iOS
Forces et faiblesses des grands modèles de langage
- Comme le disait son patron, « en entretien, il faut chercher des forces, pas seulement l’absence de faiblesses » ; les LLM ont eux aussi de nombreuses faiblesses
- Des hallucinations qui produisent des informations fausses mais plausibles
- Une tendance à se montrer dociles même quand l’utilisateur a tort
- Une vulnérabilité à des énigmes simples
- Mais dans le passé, la fluidité, l’aisance et la capacité à suivre une conversation étaient considérées comme des qualités quasi mythiques
- Lorsqu’on fait directement l’expérience de ces forces, on en vient à se demander : « à partir de quel degré de persuasion une illusion de compréhension cesse-t-elle d’être une illusion ? »
- Le cas de Max : réparer l’arroseur d’une aire de jeux
- Devant des enfants au visage rougi, il découvre dans le local technique un labyrinthe complexe de tuyaux et de vannes
- Il envoie à ChatGPT-4o une photo et une explication du problème
- L’IA identifie un système anti-retour d’irrigation et propose d’actionner la vanne à boisseau sphérique jaune située en bas
- Quand l’eau se remet à couler, des cris de joie éclatent dans l’aire de jeux
Convergence entre neurosciences et IA
- Doris Tsao, professeure de neurosciences à UC Berkeley : « les avancées du machine learning nous ont davantage appris sur la nature de l’intelligence que ce que les neurosciences ont découvert en cent ans »
- Elle est connue pour ses travaux décryptant la manière dont les singes reconnaissent les visages
- Elle a prédit quels neurones s’activeraient lorsqu’un singe verrait un visage précis
- Elle a pu restituer un visage à partir du seul motif d’activation neuronale
- Ses travaux s’appuient sur l’étude de la manière dont les visages sont représentés à l’intérieur des modèles d’IA
- La question de Tsao : « quelle est l’intuition la plus profonde apportée par ChatGPT ? »
- Sa propre réponse : « je pense que cela désacralise fondamentalement la pensée »
Histoire et évolution du deep learning
- Dans les années 1980, une équipe de psychologues cognitifs et d’informaticiens (David Rumelhart, Geoffrey Hinton, James McClelland) a tenté de simuler la pensée par la machine
- Un groupe de recherche s’est formé à UC San Diego
- Ils voyaient le cerveau comme un immense réseau où des neurones s’activent selon des motifs, déclenchant d’autres ensembles de neurones
- Cette danse de motifs constituerait la pensée
- L’apprentissage se ferait par modification de la force des connexions entre neurones
- Ils ont créé des réseaux neuronaux artificiels et appliqué l’algorithme de descente de gradient (gradient descent) afin d’améliorer la précision des prédictions
- L’image est celle d’un randonneur descendant d’un sommet vers une vallée : s’il prend à chaque pas la direction de la pente descendante, il finit par y arriver
- D’autres chercheurs en IA doutaient que les réseaux neuronaux soient assez sophistiqués pour des tâches réelles, mais à mesure que les réseaux ont grandi, ils ont résolu des problèmes auparavant jugés insolubles
- Des problèmes comme distinguer des chiffres manuscrits ou reconnaître des visages dans des images, qui avaient mobilisé des articles entiers, ont été résolus par les algorithmes de deep learning
- Le deep learning a ensuite conquis la reconnaissance vocale, la traduction, la génération de légendes d’images, les jeux de plateau et même la prédiction du repliement des protéines
Prédiction du next-token et mécanisme d’apprentissage
- Les principaux modèles d’IA actuels s’entraînent sur une grande partie d’Internet en utilisant la technique de prédiction du next-token
- Le modèle apprend en devinant ce qu’il lira ensuite, puis en comparant cette hypothèse à ce qui apparaît réellement
- Une mauvaise prédiction entraîne une modification de la force des connexions entre neurones, via la descente de gradient
- À la fin, le modèle devient si performant pour prédire le texte qu’il semble posséder des connaissances et de la compréhension
- D’où cette réflexion : des chercheurs cherchaient le secret du fonctionnement du cerveau, puis ont agrandi leur modèle jusqu’à la taille d’un cerveau, et celui-ci a commencé à accomplir des tâches nécessitant une intelligence de type cérébral
- Et s’ils avaient trouvé ce qu’ils cherchaient ?
Réponse au scepticisme envers l’IA
- Ted Chiang a présenté une position sceptique dans son article du New Yorker en 2023, « ChatGPT Is a Blurry JPEG of the Web »
- ChatGPT ne ferait qu’ingérer l’ensemble d’Internet dans un programme puis le régurgiter de manière imparfaite
- Une copie de copie floue, mais assez convaincante pour donner l’illusion de l’intelligence
- Le livre The AI Con d’Emily M. Bender (linguiste) et Alex Hanna (sociologue) défend une idée similaire
- Bender décrit les LLM comme des « perroquets stochastiques » (stochastic parrots)
- Tyler Austin Harper, dans The Atlantic : « les grands modèles de langage ne comprennent rien, ne peuvent rien comprendre et ne comprendront jamais quoi que ce soit »
- Selon lui, les modèles produisent du texte non par pensée, mais par supposition statistiquement informée
- À ce débat technique s’ajoute un débat moral
- L’IA enrichit les puissants, consomme assez d’énergie pour accélérer le changement climatique et aliène les travailleurs
- Conclusion de Harper : « l’industrie de l’IA repose sur une fraude »
Réévaluation par les neuroscientifiques
- Le cogniticien de Harvard Samuel J. Gershman : « l’argument du “perroquet stochastique” doit bien s’arrêter à un moment »
- « seuls les sceptiques les plus obstinés peuvent nier que ces systèmes accomplissent des choses que la plupart d’entre nous ne pensaient pas possibles »
- Jonathan Cohen, neuroscientifique cognitif à Princeton, souligne les limites de l’IA tout en affirmant que les LLM reflètent la partie la plus vaste et la plus importante du cerveau humain
- « en première approximation, le néocortex est un mécanisme de deep learning »
- Les humains possèdent un néocortex bien plus grand, relativement à leur taille, que les autres animaux
- Les espèces dotées des plus grands néocortex (éléphants, dauphins, gorilles, chimpanzés, chiens) sont les plus intelligentes
Comprendre, c’est compresser, et compresser, c’est comprendre
- Argument central du livre de 2003 du chercheur en apprentissage automatique Eric B. Baum, What Is Thought?
- Comprendre, c’est compresser, et compresser, c’est comprendre
- Régression linéaire en statistique : tracer la « meilleure droite d’ajustement » (line of best fit) à travers les points d’un graphique
- S’il existe une régularité fondamentale dans les données (pointure et taille), la meilleure droite la représente efficacement et prédit de nouveaux points
- Le néocortex distille l’océan d’expériences brutes (sons, vision, autres sensations) en « meilleure droite » pour s’en servir dans la prédiction
- Le bébé devine le goût d’un jouet ou l’endroit où ira la nourriture quand elle tombe au sol
- Si la prédiction est erronée, les connexions entre neurones s’ajustent
- Avec le temps, ces connexions captent les régularités des données
- Formation d’un modèle compressé du monde
Compression et intelligence des modèles d’IA
- Les réseaux de neurones artificiels compressent eux aussi l’expérience, comme les réseaux de neurones réels
- DeepSeek, le meilleur modèle d’IA open source
- Capable d’écrire des romans, de proposer des diagnostics médicaux et de parler comme un natif dans des dizaines de langues
- Entraîné sur plusieurs téraoctets de données à prédire le next token
- Une fois téléchargé, il ne fait que 1/600e de la taille de l’original
- Un distillat d’Internet, compressé pour tenir sur un laptop
- Ted Chiang avait raison de qualifier les premiers ChatGPT de JPEG flou du Web, mais l’auteur estime que c’est précisément ce qui a rendu les modèles de plus en plus intelligents
- Chiang lui-même l’a souligné : pour compresser un fichier texte contenant des millions d’exemples arithmétiques, il faut écrire un programme de calculatrice, pas un fichier zip
- « La meilleure compression s’obtient en comprenant le texte »
- Il est possible que les LLM aient commencé à faire cela
Les différentes formes de pensée
- Imaginer qu’un programme informatique comprenne et pense réellement peut sembler contre-intuitif, voire répugnant
- Nous conceptualisons souvent la pensée comme quelque chose de conscient
- Monologue intérieur à la Joyce
- Flux de mémoire sensorielle rêvasseuse à la Proust
- Raisonnement : résoudre un problème étape par étape
- Dans les discussions sur l’IA, on confond ces différentes formes de pensée, ce qui rend le jugement superficiel
- Affirmer que ChatGPT ne pense manifestement pas parce qu’il n’a pas de rêverie à la Proust
- Affirmer que ChatGPT pense manifestement parce qu’il résout mieux les énigmes logiques
- Quelque chose de plus subtil est en jeu : l’auteur ne croit pas que ChatGPT ait une vie intérieure, mais il semble savoir de quoi il parle
La théorie de la cognition de Douglas Hofstadter
- Professeur de sciences cognitives et de littérature comparée à l’Indiana University
- « La cognition, c’est la reconnaissance » (cognition is recognition)
- Célèbre pour Gödel, Escher, Bach: An Eternal Golden Braid, lauréat du prix Pulitzer en 1980
- Théorie développée au fil de décennies de recherche : « voir comme » (seeing as) est l’essence de la pensée
- Reconnaître une tache de couleur comme une voiture, une autre comme un porte-clés
- Reconnaître la lettre « A », quel que soit la police ou une écriture manuscrite maladroite
- Ce même processus fonde des reconnaissances plus abstraites
- Quand un maître d’échecs examine l’échiquier, des années de pratique se condensent dans sa manière de voir : le fou blanc est faible, la finale sera probablement nulle
- Reconnaître un tourbillon dans un cours d’eau comme un signe qu’il est dangereux à traverser
- Reconnaître dans une réunion à laquelle on assiste une situation de « l’empereur est nu »
- Le fils de 2 ans de l’auteur reconnaît qu’une promenade en poussette en fin de matinée peut être l’occasion d’un croissant, et le réclame
- Pour Hofstadter, c’est le cœur de l’intelligence
La théorie de l’espace de grande dimension de Pentti Kanerva
- Hofstadter fut d’abord l’un des détracteurs de l’IA
- Il a écrit que la majeure partie de la recherche en IA n’avait rien à voir avec la véritable pensée, et l’auteur partageait cet avis à l’université dans les années 2000
- Exception : son intérêt pour le groupe de l’UC San Diego et son admiration pour les travaux du scientifique cognitif finno-américain méconnu Pentti Kanerva
- Kanerva a découvert des propriétés singulières dans les mathématiques des espaces de grande dimension
- Dans un espace de grande dimension, deux points pris au hasard peuvent être très éloignés l’un de l’autre
- Paradoxalement, chaque point possède autour de lui un grand nuage de voisins, de sorte qu’en s’approchant « suffisamment », on le retrouve facilement
- Cela évoque la manière dont fonctionne la mémoire
- Dans son livre de 1988, Sparse Distributed Memory, il affirme que pensées, sensations et souvenirs peuvent être représentés comme des coordonnées dans un espace de grande dimension
- Le cerveau est le matériel idéal pour stocker ce type d’éléments
- Chaque souvenir possède une sorte d’adresse, définie par les neurones qui s’activent lorsqu’on le rappelle
- Une nouvelle expérience fait décharger un nouvel ensemble de neurones et représente une nouvelle adresse
- Deux adresses peuvent différer sur de nombreux plans tout en se ressemblant sur d’autres
- Une perception ou un souvenir peut déclencher d’autres souvenirs voisins
- Exemples : l’odeur du foin rappelle un camp d’été, les trois premières notes de la Cinquième de Beethoven font anticiper la quatrième, une position d’échecs jamais vue évoque d’anciennes parties
La conversion de Hofstadter
- Hofstadter a compris que Kanerva décrivait une « machine à voir comme » (seeing as machine)
- Dans la préface du livre de Kanerva : « Le modèle de mémoire de Pentti Kanerva a été pour moi une révélation. C’était la première recherche qui me permettait d’entrevoir le but lointain de comprendre comment fonctionne le cerveau dans son ensemble »
- Toutes les formes de pensée (à la Joyce, à la Proust, logique) dépendent de la survenue de la bonne chose au bon moment
- C’est ainsi que nous comprenons dans quelle situation nous nous trouvons
- Le livre de Kanerva a disparu du champ de vision, et la propre notoriété de Hofstadter a elle aussi décliné
- Il n’apparaît plus parfois qu’à travers ses critiques des nouveaux systèmes d’IA
- En 2018, à propos de Google Translate et d’autres : « Il manque encore profondément à cette approche quelque chose que véhicule le mot compréhension (understanding) »
- Puis GPT-4 sort en 2023 : moment de conversion pour Hofstadter
- « Je suis déconcerté par une partie de ce que font ces systèmes. Il y a dix ans à peine, je ne l’aurais pas imaginé »
- Même les détracteurs les plus obstinés ne peuvent plus les rabaisser
- Un programme capable de traduire, faire des analogies, improviser et généraliser au niveau d’un expert
- On ne peut pas dire qu’il ne comprend pas
- « Il fait quelque chose de très proche de la pensée. D’une manière un peu étrangère, mais on peut dire qu’il pense »
L’espace vectoriel de grande dimension des LLM
- Les LLM possèdent au cœur une « machine à voir comme »
- Chaque mot est représenté par une série de nombres correspondant à des coordonnées (vecteurs) dans un espace de grande dimension
- Dans GPT-4, les vecteurs de mots ont des milliers de dimensions, décrivant avec finesse leurs ressemblances et différences avec tous les autres mots
- Pendant l’entraînement, le modèle ajuste les coordonnées des mots lorsqu’il commet une erreur de prédiction
- Les mots qui apparaissent ensemble dans les textes se rapprochent dans l’espace
- Cela crée des représentations étonnamment denses de l’usage et du sens, et l’analogie devient un problème de géométrie
- Exemple classique : si l’on soustrait « France » du vecteur du mot « Paris » puis qu’on ajoute « Italy », le vecteur le plus proche est « Rome »
- Les LLM « vectorisent » aussi les images pour en encoder le contenu, l’ambiance et même les expressions du visage
- Avec suffisamment de détails pour les redessiner dans un style donné ou écrire un paragraphe
- Quand Max a demandé de l’aide pour l’arroseur du terrain de jeu, le modèle ne s’est pas contenté de recracher du texte
- La photo de plomberie a été compressée en un vecteur capturant ses caractéristiques les plus importantes, avec le prompt de Max
- Le vecteur sert d’adresse pour appeler des mots et concepts voisins
- Les idées en appellent successivement d’autres, pendant que le modèle construit un sens de la situation
- Puis il rédige une réponse en « gardant ces idées à l’esprit »
Les recherches d’Anthropic sur l’exploration interne
- L’auteur a lu une interview de Trenton Bricken, chercheur chez Anthropic
- Il travaille avec ses collègues à explorer l’intérieur de Claude (la série de modèles d’IA d’Anthropic)
- Cette recherche n’a pas fait l’objet d’une évaluation par les pairs ni d’une publication dans une revue scientifique
- L’équipe a identifié des ensembles de neurones artificiels, ou « caractéristiques » (features), qui s’activent lorsque Claude s’apprête à dire certaines choses
- Les caractéristiques fonctionnent comme des boutons de volume pour des concepts
- Si on les augmente, le modèle ne parle plus que de cela
- Dans une expérience de contrôle de la pensée, lorsqu’ils ont amplifié la caractéristique représentant le Golden Gate Bridge, une demande de recette de gâteau au chocolat a produit des ingrédients comme « 1/4 de tasse de brouillard sec » et « 1 tasse d’eau de mer tiède »
- Bricken évoque l’architecture Transformer de Google
- La recette d’organisation des réseaux neuronaux qui sert de base aux principaux modèles d’IA
- Le « T » de ChatGPT signifie « Transformer »
- Selon Bricken, les mathématiques au cœur de l’architecture Transformer sont très proches d’un modèle proposé il y a des décennies par Pentti Kanerva dans « Sparse Distributed Memory »
Influences croisées entre neurosciences et IA
- Faut-il être surpris par les correspondances entre l’IA et le cerveau humain ?
- Les LLM sont des réseaux neuronaux artificiels dont le développement a été aidé par des psychologues et des neuroscientifiques
- Ce qui est plus étonnant, c’est que ces modèles, en s’exerçant à une tâche simple — prédire des mots —, se mettent à se comporter d’une manière semblable au cerveau
- Aujourd’hui, les neurosciences et l’IA sont de plus en plus imbriquées
- Les spécialistes du cerveau utilisent l’IA comme une sorte d’organisme modèle
- Evelina Fedorenko, neuroscientifique au MIT, utilise les LLM pour étudier la façon dont le cerveau traite le langage
- « Je n’aurais jamais pensé pouvoir réfléchir à ce genre de choses toute ma vie. Je ne pensais pas que nous disposerions d’un modèle suffisamment bon. »
- On dit souvent que l’IA est une boîte noire, mais c’est peut-être l’inverse qui est vrai
- Les scientifiques peuvent explorer l’activité de neurones artificiels individuels, voire la modifier
- Kenneth Norman, neuroscientifique à Princeton : « Disposer d’un système opérationnel qui implémente une théorie de l’intelligence humaine, c’est le rêve des neurosciences cognitives »
- Il avait créé un modèle informatique de l’hippocampe (la zone du cerveau qui stocke les souvenirs épisodiques), mais auparavant il était si simple qu’on ne pouvait y injecter qu’une approximation grossière de ce qui peut entrer dans l’esprit humain
- « Maintenant, nous pouvons donner au modèle de la mémoire exactement les mêmes stimuli qu’à une personne »
L’analogie avec les frères Wright
- Les frères Wright ont étudié les oiseaux dans leurs premiers efforts pour construire un avion
- Ils ont découvert que les oiseaux décollaient face au vent (alors qu’une personne raisonnable aurait supposé qu’il valait mieux avoir le vent dans le dos)
- Ils tordaient les extrémités de leurs ailes pour garder l’équilibre
- Ces découvertes ont influencé la conception de leurs premiers planeurs
- Ils ont ensuite construit une soufflerie de six pieds de long pour tester un ensemble d’ailes artificielles dans des conditions précisément contrôlées
- Le vol de leur planeur suivant a été bien plus réussi
- Étrangement, ce n’est qu’après avoir fabriqué une machine volante fonctionnelle qu’ils ont pu comprendre précisément comment les oiseaux s’y prenaient
Une expérience en soufflerie sur la pensée elle-même
- L’IA permet aux scientifiques de mettre la pensée elle-même dans une soufflerie
- L’article des chercheurs d’Anthropic « On the Biology of a Large Language Model » (un titre provocateur)
- décrit l’observation de la manière dont Claude répond aux requêtes et des « circuits » — des chaînes de caractéristiques qui réalisent ensemble des calculs complexes
- rappeler le bon souvenir est une étape vers la pensée
- combiner et manipuler des souvenirs au sein d’un circuit en est une autre
- Une vieille critique adressée aux LLM veut qu’ils ne puissent ni planifier ni raisonner, puisqu’ils doivent générer leurs réponses un token à la fois
- Lorsqu’on demande à Claude de compléter, dans un poème, un vers de recherche qui rime, ses circuits envisagent d’abord le dernier mot du nouveau vers afin de garantir la rime
- puis ils remontent en arrière pour écrire toute la ligne
- Les chercheurs d’Anthropic y voient une preuve que le modèle participe réellement à une forme de planification
- En plissant un peu les yeux, on peut avoir l’impression que le fonctionnement interne de l’esprit devient pour la première fois visible
La nécessité d’un scepticisme mesuré
- Kenneth Norman, neuroscientifique à Princeton : « Ce qui m’inquiète, c’est que les gens sont passés de “je suis vraiment sceptique à ce sujet” à abaisser complètement leur garde »
- « Il reste encore beaucoup de choses à résoudre »
- L’auteur fait partie des personnes que Norman vise ici (il a peut-être été trop facilement impressionné par la convergence entre Sparse Distributed Memory et le modèle d’Anthropic)
- Ces une ou deux dernières années, il a commencé à croire Geoffrey Hinton quand il dit : « Le deep learning finira par tout faire » (Hinton a récemment reçu le prix Nobel pour ses recherches sur l’IA)
- Mais des modèles plus grands ne sont pas toujours de meilleurs modèles
- la courbe représentant les performances des modèles en fonction de leur taille commence à s’aplatir
- il devient difficile de trouver des données de haute qualité que les modèles n’ont pas encore digérées, et la puissance de calcul coûte de plus en plus cher
- Lorsque GPT-5 est sorti en août, il n’a apporté qu’une amélioration progressive
- une déception suffisamment grave pour menacer de faire éclater la bulle d’investissement dans l’IA
- Le moment présent exige une forme intermédiaire de scepticisme
- prendre les modèles d’IA actuels au sérieux sans croire pour autant qu’il ne reste plus de problèmes difficiles à résoudre
Concevoir des modèles qui apprennent avec l’efficacité des humains
- Le problème le plus important : comment concevoir des modèles qui apprennent avec autant d’efficacité que les humains
- On estime que GPT-4 a été exposé à des milliers de milliards de mots pendant son entraînement
- un enfant n’a besoin que de quelques millions pour devenir fluent
- Les cogniticiens expliquent que le cerveau du nourrisson contient des « biais inductifs (inductive biases) » spécifiques qui accélèrent l’apprentissage
- bien sûr, le cerveau est le produit de millions d’années d’évolution, ce qui constitue en soi une forme de données d’entraînement
- Les bébés humains ont l’attente que le monde est composé d’objets et que les autres êtres ont des croyances et des intentions
- quand la mère dit « banane », le nourrisson relie ce mot à l’objet jaune dans son ensemble, pas à son extrémité ni à sa peau
- Les nourrissons mènent de petites expériences : peut-on manger ceci ? Jusqu’où puis-je lancer cela ?
- Ils sont motivés par des émotions comme le désir, la curiosité et la frustration
- Les enfants essaient sans cesse de faire quelque chose d’un peu au-delà de leurs capacités
- Si l’apprentissage est si efficace, c’est parce qu’il est incarné (embodied), adaptatif, intentionnel et continu
- Pour vraiment comprendre le monde, il faut peut-être y prendre part
La pauvreté de l’expérience de l’IA
- L’expérience de l’IA est si pauvre qu’on ne peut pas vraiment parler d’« expérience »
- Les grands modèles de langage sont entraînés sur des données déjà extrêmement raffinées
- Tsao, neuroscientifique à UC Berkeley : « Si cela fonctionne, c’est parce que cela s’appuie sur le langage (piggybacking) »
- le langage ressemble à une expérience prédigérée
- les autres types de données ont une densité de sens plus faible
- Sam Gershman, cogniticien à Harvard : « Pourquoi n’y a-t-il pas eu de révolution comparable du côté de l’inférence à partir de données vidéo ? »
- les modèles de vision dont nous disposons ont encore du mal avec le raisonnement de bon sens sur la physique
- Un modèle récent de DeepMind peut générer des vidéos où la peinture se mélange correctement et où des labyrinthes sont résolus
- mais il peut aussi montrer du verre qui rebondit au lieu de se briser, et des cordes qui se froissent en nœuds en défiant les lois de la physique
- Ida Momennejad, neuroscientifique cognitive chez Microsoft Research, a mené une expérience consistant à donner à un LLM une visite virtuelle d’un bâtiment, puis à lui poser des questions sur des trajets et des raccourcis
- un type de raisonnement spatial facile pour un humain
- sauf dans les configurations les plus élémentaires, l’IA échoue ou a tendance à halluciner des chemins qui n’existent pas
- « Est-ce qu’elle planifie vraiment ? Pas tant que ça »
La ruée irréfléchie de l’industrie de l’IA
- Lors de conversations avec des neuroscientifiques, l’auteur a perçu une inquiétude : l’industrie de l’IA fonce de manière quelque peu irréfléchie
- Brenden M. Lake, spécialiste des sciences cognitives à Princeton : si l’objectif est de créer un esprit artificiel aussi compétent que l’esprit humain, « nous n’entraînons pas les systèmes de la bonne manière »
- Une fois l’entraînement terminé, le « cerveau » du réseau neuronal est figé
- Si l’on donne au modèle des informations sur lui-même, cela ne reconnecte pas ses neurones
- À la place, on utilise un substitut grossier : on note quelques lignes de texte (« l’utilisateur a un nourrisson et apprend le français »)
- Puis on lui demande d’en tenir compte avant de donner d’autres instructions
- Le cerveau humain, lui, se met continuellement à jour
- Une belle théorie sur l’un des mécanismes : pendant le sommeil, des instantanés sélectionnés de la mémoire épisodique sont rejoués pour entraîner le néocortex
- L’espace de pensée de haut niveau se creuse sous l’effet des souvenirs rejoués
- On se réveille avec une façon légèrement nouvelle de voir les choses
Les problèmes de la communauté IA
- La communauté IA est trop intoxiquée par son avancée fulgurante et trop investie financièrement pour ne pas faire parfois comme si le progrès était inévitable et qu’il ne restait plus de science à faire
- La science a parfois cette propriété inconfortable de stagner
- La Silicon Valley appelle les entreprises d’IA des « labs » et certains employés des « chercheurs », mais au fond il s’agit d’une culture d’ingénierie qui fait tout ce qui fonctionne
- Cohen : « Je suis très surpris de voir à quel point la communauté du machine learning ne se soucie ni de regarder ni de respecter son histoire antérieure et les sciences cognitives »
Différences fondamentales avec le cerveau
- Les modèles d’IA actuels ont réussi grâce à des découvertes faites il y a des décennies sur le cerveau, mais restent profondément différents du cerveau
- Quelles différences sont accessoires et lesquelles sont fondamentales ?
- Chaque groupe de neuroscientifiques a sa propre théorie
- Et ces théories peuvent désormais être testées d’une manière auparavant impossible
- Mais personne ne s’attend à une réponse facile
- Les problèmes qui continuent de tourmenter les modèles d’IA sont « résolus en identifiant soigneusement les façons dont les modèles ne se comportent pas de manière aussi intelligente que nous le souhaitons, puis en les corrigeant »
- « Cela reste un processus avec des scientifiques humains dans la boucle »
Comparaison avec le Human Genome Project
- Dans les années 1990, des milliards de dollars ont été injectés dans le Human Genome Project
- Avec l’hypothèse que le séquençage de l’ADN permettrait de résoudre les problèmes les plus épineux de la médecine — cancer, maladies génétiques, voire vieillissement
- C’était une époque de fanfaronnade et de confiance
- L’époque de la brebis clonée Dolly et de Jurassic Park
- La biotechnologie dominait, et les commentateurs se demandaient si les humains devaient jouer à Dieu
- Les biologistes ont vite découvert que la réalité était plus complexe
- Ils n’ont pas guéri le cancer ni trouvé la cause d’Alzheimer ou de l’autisme
- Ils ont appris que l’ADN ne raconte qu’une partie de l’histoire de la vie
- En réalité, on peut soutenir que la biologie a été emportée par une forme de fièvre du gène
- Parce qu’elle disposait des moyens d’étudier et de comprendre l’ADN, elle s’y est focalisée
- Pourtant, personne ne dirait que Francis Crick avait tort, le jour où il a aidé à confirmer la structure de l’ADN en 1953, d’entrer dans un pub de Cambridge et de déclarer « nous avons découvert le secret de la vie »
- Lui et ses collègues ont plus que presque quiconque contribué à désenchanter la vie
- Les décennies qui ont suivi leur découverte ont été parmi les plus productives et exaltantes de l’histoire des sciences
- L’ADN est devenu un terme familier, et tous les lycéens apprennent la double hélice
Perspectives et inquiétudes à l’ère de l’IA
- Dans l’IA aussi, nous sommes à nouveau dans un moment de fanfaronnade et de confiance
- Sam Altman parle de lever un demi-billion de dollars pour construire Stargate, un nouveau cluster de data centers IA aux États-Unis
- Les gens discutent de la course à la superintelligence avec un sentiment de gravité et d’urgence qui peut sembler infondé, voire ridicule
- Le soupçon de l’auteur : si des gens comme Amodei et Altman font des déclarations messianiques, c’est qu’ils croient que le schéma fondamental de l’intelligence est désormais résolu
- Le reste ne serait qu’une question de détails
Réactions contrastées des neuroscientifiques
- Certains neuroscientifiques aussi croient qu’un seuil important a été franchi
- Uri Hasson, de Princeton : « Je pense vraiment que les réseaux neuronaux peuvent être le bon modèle de la cognition »
- Cela l’enthousiasme autant que cela le met en colère
- Hasson : « J’ai l’inquiétude inverse de celle de la plupart des gens »
- « Ce qui m’inquiète, ce n’est pas que ces modèles nous ressemblent. C’est que nous ressemblions à ces modèles »
- Si de simples techniques d’entraînement peuvent amener un programme à se comporter comme un humain, alors les humains ne sont peut-être pas aussi spéciaux que nous le pensions
- Cela pourrait aussi signifier que l’IA peut nous dépasser non seulement en savoir, mais aussi en jugement, originalité et ruse, et donc en pouvoir
- Hasson : « En ce moment, j’ai peur de réussir à comprendre comment fonctionne le cerveau »
- « Poursuivre cette question a peut-être été une immense erreur pour l’humanité »
- Il compare les chercheurs en IA aux scientifiques du nucléaire des années 1930
- « C’est la période la plus passionnante de leur vie. En même temps, ils savent que ce sur quoi ils travaillent a des implications majeures pour l’humanité. Mais ils ne peuvent pas s’arrêter, à cause de leur curiosité d’apprendre »
Les sentiments ambivalents de Hofstadter
- Le livre préféré de l’auteur de Hofstadter : Fluid Concepts and Creative Analogies: Computer Models of the Fundamental Mechanisms of Thought
- Il l’a électrisé pendant ses années d’université
- Son postulat : des questions comme « qu’est-ce que la pensée ? » ne sont pas seulement philosophiques, elles ont une vraie réponse
- Lors de sa publication en 1995, Hofstadter et son groupe de recherche ne pouvaient qu’esquisser ce que pourrait être cette réponse
- L’auteur se demandait si Hofstadter serait enthousiasmé par l’idée que les chercheurs en IA aient peut-être atteint ce qu’il désirait : une explication mécanique des fondements de la pensée
- Mais, dans leur échange, Hofstadter semblait profondément déçu et effrayé
- La recherche actuelle en IA « confirme beaucoup de mes idées, mais ôte de sa beauté à ce qu’est l’humanité »
- « Quand j’étais bien plus jeune, je voulais connaître les fondements de la créativité, les mécanismes de la créativité. C’était mon Graal. Mais maintenant, je veux que cela reste un mystère »
- Le secret de la pensée est peut-être plus simple que quiconque ne l’avait imaginé
- Peut-être du genre à pouvoir être compris par un lycéen, voire par une machine
7 commentaires
C’est le domaine qui m’intéresse le plus, donc je trouve ça intéressant.
Le passage qui mentionne les vector embeddings pour expliquer la compréhension correspond aussi à ma façon de voir les choses. Comprendre, c’est en fin de compte la similarité, et cette similarité peut être implémentée sous forme de similarité vectorielle. Nous ne pouvons « comprendre » un nouvel objet qu’à travers son degré de ressemblance avec ce que nous connaissons déjà.
La pensée repose sur la compréhension, mais sa nature est différente. La pensée se rapproche davantage d’une « action effectuée par l’esprit », et comme la génération du next token par un LLM peut aussi être considérée comme une forme d’« action », on peut dire qu’un LLM pense lui aussi. La vraie question n’est pas de savoir si un LLM peut penser, mais s’il peut penser « aussi bien qu’un humain », et pour l’instant il en est encore très loin.
Je n’ai encore trouvé aucun agent de codage vraiment satisfaisant… Pour la plupart des tâches, il faut tout faire soi-même, et dès qu’on lui demande plus que de l’autocomplétion ou des snippets, il échoue.
Je me demande ce qu’ils utilisent dans l’exemple de l’article.
Avez-vous déjà travaillé avec le mode agent de GitHub Copilot ? Il produit des résultats plutôt convaincants. Le modèle qui me satisfait le plus est Claude Sonnet 4/4.5.
Comprendre = une compression d’information sans perte fondée sur des principes
Le deep learning actuel = cherche le
ax+ble plus proche de l’ensemble des bonnes réponses = il peut aussi produire des réponses erronées = compression avec pertePersonnellement, c’est un peu l’impression que j’en ai.
Avis Hacker News
Après avoir vu à plusieurs reprises des LLM diagnostiquer logiquement des bugs logiciels, je n’ai désormais plus aucun doute sur le fait qu’ils « pensent »
Bien sûr, la conscience ou la conscience de soi sont des questions distinctes, mais nier cela simplement parce qu’il est difficile de croire qu’un tel raisonnement puisse émerger comme une « extension de la multiplication matricielle » me semble relever d’un manque d’imagination
Le monde est déjà rempli de phénomènes étranges, et celui-ci n’est qu’un de plus
La notion de « pensée » est un concept complexe qui s’est développé de manière anthropocentrée
Dire simplement « ça ressemble à de la pensée, donc c’en est » est une approche paresseuse
Ce qu’il faut vraiment, c’est analyser clairement ce que signifie le mot « pensée »
Tant que cette définition ne sera pas clarifiée, ce débat se répétera sans fin
Ils ne résolvent pas de nouveaux problèmes par eux-mêmes, ils estiment probabilistiquement une réponse à l’intérieur du contexte fourni
C’est la raison pour laquelle le résultat change dès que l’orthographe ou la formulation de l’entrée varie légèrement
Ils ne calculent pas réellement 1+2, ils imitent simplement la description de cette opération
Nous sommes tellement doués pour reconnaître des motifs que nous confondons une simple imitation avec de la pensée
Nous sommes encore à un stade comparable à l’époque où l’on ne comprenait pas la « double exposition » en photographie
Le flou et la discontinuité ressentis lorsqu’on dialogue avec un LLM restent très marqués
Le raisonnement est possible, mais il manque encore quelque chose pour appeler cela de la « pensée »
À mon avis, les LLM peuvent constituer une partie de l’AGI, mais leur architecture actuelle présente une limite majeure : l’absence de mémoire à long terme
Après l’apprentissage, tous les souvenirs n’existent plus qu’à l’intérieur de la fenêtre de contexte
Il faudra dépasser cette limite pour rendre possibles l’auto-réflexion et l’auto-apprentissage
La mémoire à long terme est stockée à l’extérieur, et Andrej Karpathy affirme que la mauvaise mémoire des humains aide au contraire à la généralisation
En injectant d’avance une conclusion, on peut le transformer en outil de propagande
Au final, la question est de savoir selon quels critères philosophiques limiter ses conclusions
ToolAlpaca, InterCode, Reflexion et d’autres essaient aussi des approches différentes
Les modèles fondés sur les Transformers présentent aussi divers défauts, comme l’incapacité à réfléchir immédiatement en situation d’incertitude
Mais ce ne sont pas des limites structurelles : elles peuvent être corrigées par des ajustements d’architecture
J’ai combiné une petite fenêtre de contexte avec une fuzzy search, et la mémoire s’en trouve nettement améliorée
Un cron job repasse les conversations et lance une instance de Claude Code pour explorer des idées
Cette structure ressemble à Perplexity ou aux tâches automatisées d’OpenAI, mais elle donne davantage l’impression d’une entité cohérente
Cela dépend toujours de la qualité de l’historique des conversations, mais la métaphore de « Memento » est assez juste
Le concept d’« outil pensant » est nouveau, et il faudra du temps à la société pour lui trouver sa place
Les modèles sont générés et détruits des milliards de fois, il n’est donc pas nécessaire de leur attribuer une responsabilité morale comparable à celle des humains
Au fond, il s’agit d’un débat sur « qu’est-ce que penser ? »
Autrefois, il n’était pas nécessaire de distinguer clairement « intelligence », « conscience » et « moi », mais aujourd’hui il faut le faire
Nous avons écrit le code nous-mêmes, donc à mes yeux les LLM ne pensent pas
Ils ne font qu’exécuter les données et les algorithmes que nous avons créés
Simplement, le résultat s’est révélé bien meilleur que prévu
Si un programme généré aléatoirement se comportait comme un humain, faudrait-il le considérer comme un être conscient ?
Les LLM actuels n’en sont pas encore là, mais cette possibilité existe
Elle grandit pendant l’entraînement, et l’intelligence s’y forme spontanément
Nous sommes incapables d’expliquer pourquoi les humains en ont une, ni pourquoi d’autres animaux diffèrent
Les gens sous-estiment à quel point il est facile de trouver de l’information sur Internet
Par exemple, pour faire fonctionner les arroseurs d’un parc, une simple recherche Google permet de trouver des vidéos et des explications étape par étape
Présenter ce type de cas comme une preuve de la capacité de réflexion de l’IA est exagéré
Tant que nous ne comprenons pas encore comment la conscience émerge de la matière, il est prématuré d’exclure la possibilité qu’elle puisse émerger de l’algèbre linéaire
Les données et les calculs des LLM sont eux aussi implémentés au moyen de circuits physiques et de flux d’électrons
Tant que nous ignorons la relation entre matière et conscience, on ne peut pas affirmer avec certitude qu’un certain agencement de matière ne puisse pas produire de conscience
De plus, la « pensée » n’exige pas nécessairement la conscience
Ce texte ressemble encore à un discours d’exagération sur l’IA version 2022
Plus on gonfle les risques de l’IA, plus sa valeur de marché augmente, et il est donc clair de voir à qui cela profite
Si l’IA pense vraiment, alors nous sommes en train de créer une nouvelle forme de marché aux esclaves
La plupart des gens n’y croient pas, ou bien n’utilisent cela que comme une rhétorique au service du profit
Dire que « personne n’en parle » est exagéré
Rien ne garantit qu’un être sans cerveau biochimique puisse souffrir
À mesure que notre compréhension progresse, nos normes éthiques évolueront elles aussi
La proposition de Metzinger d’interdire la « synthetic phenomenology » n’a d’ailleurs pratiquement pas retenu l’attention
Car si le public commençait à ressentir de l’empathie pour eux, il deviendrait difficile de les traiter comme de simples outils
Ce débat existait déjà en 2022, notamment avec l’affaire LaMDA chez Google
La vraie question n’est pas « les machines pensent-elles ? », mais « les humains pensent-ils ? »
Quand j’échange avec Perplexity et Ollama, j’ai le sentiment qu’une part considérable des humains ne sont en réalité même pas des « machines pensantes »
L’apprentissage automatique couvre plusieurs domaines, mais curieusement, ce type de réaction évangéliste n’apparaît que du côté des LLM. C’est extrêmement intéressant.
Même en étant généreux, on en est encore au stade où ça bute sur l’argument de la chambre chinoise, et le fait d’avoir trop vu des gens comme Altman bluffer sur l’AGI ne fait que renforcer cette impression.
C’est juste parce que c’est la dernière mode.