Les arguments en faveur de l’idée que l’IA « pense »

(newyorker.com)

40 points par GN⁺ 2025-11-05 | 7 commentaires | Partager sur WhatsApp

Le débat s’étend autour de l’idée que les grands modèles de langage (LLM) vont au-delà de la simple prédiction de mots et montrent de véritables formes de compréhension et de raisonnement
La neuroscientifique Doris Tsao estime que le machine learning a davantage révélé la nature de l’intelligence que les cent dernières années de neurosciences
Le deep learning et l’architecture des réseaux neuronaux imiteraient le fonctionnement du cerveau humain et s’expliqueraient par le concept « comprendre = compresser »
Les travaux de Douglas Hofstadter et Pentti Kanerva sont reliés à la structure cognitive de « seeing as » des LLM
Des limites de l’IA et des risques éthiques — comme l’absence d’efficacité d’apprentissage comparable à celle de l’humain, d’expérience ou de conscience — restent des enjeux centraux

La polarisation des performances de l’IA

Dario Amodei, CEO d’Anthropic, prévoit d’ici 2027 l’arrivée d’une IA plus intelligente qu’un prix Nobel en biologie, mathématiques, ingénierie et écriture
- Il présente la vision d’un centre de données comme un « pays de génies », où des millions de copies de modèles mèneraient chacune leurs propres recherches
Sam Altman d’OpenAI affirme que le secteur est à la veille de construire une « superintelligence numérique » et que les années 2030 seront une époque totalement différente
La plupart des outils d’IA utilisés aujourd’hui au quotidien restent pourtant limités, un peu comme Clippy dans Microsoft Office autrefois
- Zoom AI ne fournit que des suggestions simples comme « un brise-glace pour la réunion ? »
- Siri manque de capacités au-delà du réglage de rappels
- L’IA de Gmail invente des récits de voyage en Turquie où l’utilisateur n’est jamais allé
Les lancements précipités et inégaux de l’IA ont créé un brouillard qui fait penser à du battage médiatique, alors qu’il y a en réalité de réels progrès

La révolution de l’IA dans la programmation

Au départ, l’auteur pensait que l’IA n’avait rien à voir avec une véritable intelligence ou compréhension, mais son point de vue a changé en utilisant l’IA dans son travail de programmeur
Écrire du code est l’une des tâches que l’IA réussit le mieux, car la structure y est plus claire que dans la prose et les résultats peuvent être vérifiés automatiquement
L’auteur est passé d’un simple usage de l’IA à la place de la recherche d’information à la délégation de petits problèmes indépendants, puis finalement à la confier à un véritable travail exercé et entraîné toute une vie
- Les modèles d’IA absorbent en quelques secondes les détails complexes de milliers de lignes de code
- Ils repèrent des bugs subtils et coordonnent de nouvelles fonctionnalités complexes
Il a rejoint une équipe en croissance rapide pour mieux exploiter les outils d’IA
Les agents IA échouent à réserver des vacances ou à remplir une déclaration d’impôts, mais ses collègues écrivent l’essentiel de leur code avec l’IA et lancent parfois plusieurs agents de codage en parallèle
En apprenant à les utiliser efficacement, il lui arrive désormais d’achever en une soirée des tâches qui prenaient auparavant un mois
- Il a créé deux apps iOS sans savoir à la base comment développer une app iOS

Forces et faiblesses des grands modèles de langage

Comme le disait son patron, « en entretien, il faut chercher des forces, pas seulement l’absence de faiblesses » ; les LLM ont eux aussi de nombreuses faiblesses
- Des hallucinations qui produisent des informations fausses mais plausibles
- Une tendance à se montrer dociles même quand l’utilisateur a tort
- Une vulnérabilité à des énigmes simples
Mais dans le passé, la fluidité, l’aisance et la capacité à suivre une conversation étaient considérées comme des qualités quasi mythiques
- Lorsqu’on fait directement l’expérience de ces forces, on en vient à se demander : « à partir de quel degré de persuasion une illusion de compréhension cesse-t-elle d’être une illusion ? »
Le cas de Max : réparer l’arroseur d’une aire de jeux
- Devant des enfants au visage rougi, il découvre dans le local technique un labyrinthe complexe de tuyaux et de vannes
- Il envoie à ChatGPT-4o une photo et une explication du problème
- L’IA identifie un système anti-retour d’irrigation et propose d’actionner la vanne à boisseau sphérique jaune située en bas
- Quand l’eau se remet à couler, des cris de joie éclatent dans l’aire de jeux

Convergence entre neurosciences et IA

Doris Tsao, professeure de neurosciences à UC Berkeley : « les avancées du machine learning nous ont davantage appris sur la nature de l’intelligence que ce que les neurosciences ont découvert en cent ans »
- Elle est connue pour ses travaux décryptant la manière dont les singes reconnaissent les visages
- Elle a prédit quels neurones s’activeraient lorsqu’un singe verrait un visage précis
- Elle a pu restituer un visage à partir du seul motif d’activation neuronale
- Ses travaux s’appuient sur l’étude de la manière dont les visages sont représentés à l’intérieur des modèles d’IA
La question de Tsao : « quelle est l’intuition la plus profonde apportée par ChatGPT ? »
- Sa propre réponse : « je pense que cela désacralise fondamentalement la pensée »

Histoire et évolution du deep learning

Dans les années 1980, une équipe de psychologues cognitifs et d’informaticiens (David Rumelhart, Geoffrey Hinton, James McClelland) a tenté de simuler la pensée par la machine
- Un groupe de recherche s’est formé à UC San Diego
Ils voyaient le cerveau comme un immense réseau où des neurones s’activent selon des motifs, déclenchant d’autres ensembles de neurones
- Cette danse de motifs constituerait la pensée
- L’apprentissage se ferait par modification de la force des connexions entre neurones
Ils ont créé des réseaux neuronaux artificiels et appliqué l’algorithme de descente de gradient (gradient descent) afin d’améliorer la précision des prédictions
- L’image est celle d’un randonneur descendant d’un sommet vers une vallée : s’il prend à chaque pas la direction de la pente descendante, il finit par y arriver
D’autres chercheurs en IA doutaient que les réseaux neuronaux soient assez sophistiqués pour des tâches réelles, mais à mesure que les réseaux ont grandi, ils ont résolu des problèmes auparavant jugés insolubles
- Des problèmes comme distinguer des chiffres manuscrits ou reconnaître des visages dans des images, qui avaient mobilisé des articles entiers, ont été résolus par les algorithmes de deep learning
Le deep learning a ensuite conquis la reconnaissance vocale, la traduction, la génération de légendes d’images, les jeux de plateau et même la prédiction du repliement des protéines

Prédiction du next-token et mécanisme d’apprentissage

Les principaux modèles d’IA actuels s’entraînent sur une grande partie d’Internet en utilisant la technique de prédiction du next-token
Le modèle apprend en devinant ce qu’il lira ensuite, puis en comparant cette hypothèse à ce qui apparaît réellement
- Une mauvaise prédiction entraîne une modification de la force des connexions entre neurones, via la descente de gradient
À la fin, le modèle devient si performant pour prédire le texte qu’il semble posséder des connaissances et de la compréhension
D’où cette réflexion : des chercheurs cherchaient le secret du fonctionnement du cerveau, puis ont agrandi leur modèle jusqu’à la taille d’un cerveau, et celui-ci a commencé à accomplir des tâches nécessitant une intelligence de type cérébral
- Et s’ils avaient trouvé ce qu’ils cherchaient ?

Réponse au scepticisme envers l’IA

Ted Chiang a présenté une position sceptique dans son article du New Yorker en 2023, « ChatGPT Is a Blurry JPEG of the Web »
- ChatGPT ne ferait qu’ingérer l’ensemble d’Internet dans un programme puis le régurgiter de manière imparfaite
- Une copie de copie floue, mais assez convaincante pour donner l’illusion de l’intelligence
Le livre The AI Con d’Emily M. Bender (linguiste) et Alex Hanna (sociologue) défend une idée similaire
- Bender décrit les LLM comme des « perroquets stochastiques » (stochastic parrots)
Tyler Austin Harper, dans The Atlantic : « les grands modèles de langage ne comprennent rien, ne peuvent rien comprendre et ne comprendront jamais quoi que ce soit »
- Selon lui, les modèles produisent du texte non par pensée, mais par supposition statistiquement informée
À ce débat technique s’ajoute un débat moral
- L’IA enrichit les puissants, consomme assez d’énergie pour accélérer le changement climatique et aliène les travailleurs
- Conclusion de Harper : « l’industrie de l’IA repose sur une fraude »

Réévaluation par les neuroscientifiques

Le cogniticien de Harvard Samuel J. Gershman : « l’argument du “perroquet stochastique” doit bien s’arrêter à un moment »
- « seuls les sceptiques les plus obstinés peuvent nier que ces systèmes accomplissent des choses que la plupart d’entre nous ne pensaient pas possibles »
Jonathan Cohen, neuroscientifique cognitif à Princeton, souligne les limites de l’IA tout en affirmant que les LLM reflètent la partie la plus vaste et la plus importante du cerveau humain
- « en première approximation, le néocortex est un mécanisme de deep learning »
- Les humains possèdent un néocortex bien plus grand, relativement à leur taille, que les autres animaux
- Les espèces dotées des plus grands néocortex (éléphants, dauphins, gorilles, chimpanzés, chiens) sont les plus intelligentes

Comprendre, c’est compresser, et compresser, c’est comprendre

Argument central du livre de 2003 du chercheur en apprentissage automatique Eric B. Baum, What Is Thought?
- Comprendre, c’est compresser, et compresser, c’est comprendre
Régression linéaire en statistique : tracer la « meilleure droite d’ajustement » (line of best fit) à travers les points d’un graphique
- S’il existe une régularité fondamentale dans les données (pointure et taille), la meilleure droite la représente efficacement et prédit de nouveaux points
Le néocortex distille l’océan d’expériences brutes (sons, vision, autres sensations) en « meilleure droite » pour s’en servir dans la prédiction
- Le bébé devine le goût d’un jouet ou l’endroit où ira la nourriture quand elle tombe au sol
- Si la prédiction est erronée, les connexions entre neurones s’ajustent
- Avec le temps, ces connexions captent les régularités des données
- Formation d’un modèle compressé du monde

Compression et intelligence des modèles d’IA

Les réseaux de neurones artificiels compressent eux aussi l’expérience, comme les réseaux de neurones réels
DeepSeek, le meilleur modèle d’IA open source
- Capable d’écrire des romans, de proposer des diagnostics médicaux et de parler comme un natif dans des dizaines de langues
- Entraîné sur plusieurs téraoctets de données à prédire le next token
- Une fois téléchargé, il ne fait que 1/600e de la taille de l’original
- Un distillat d’Internet, compressé pour tenir sur un laptop
Ted Chiang avait raison de qualifier les premiers ChatGPT de JPEG flou du Web, mais l’auteur estime que c’est précisément ce qui a rendu les modèles de plus en plus intelligents
Chiang lui-même l’a souligné : pour compresser un fichier texte contenant des millions d’exemples arithmétiques, il faut écrire un programme de calculatrice, pas un fichier zip
- « La meilleure compression s’obtient en comprenant le texte »
- Il est possible que les LLM aient commencé à faire cela

Les différentes formes de pensée

Imaginer qu’un programme informatique comprenne et pense réellement peut sembler contre-intuitif, voire répugnant
Nous conceptualisons souvent la pensée comme quelque chose de conscient
- Monologue intérieur à la Joyce
- Flux de mémoire sensorielle rêvasseuse à la Proust
- Raisonnement : résoudre un problème étape par étape
Dans les discussions sur l’IA, on confond ces différentes formes de pensée, ce qui rend le jugement superficiel
- Affirmer que ChatGPT ne pense manifestement pas parce qu’il n’a pas de rêverie à la Proust
- Affirmer que ChatGPT pense manifestement parce qu’il résout mieux les énigmes logiques
Quelque chose de plus subtil est en jeu : l’auteur ne croit pas que ChatGPT ait une vie intérieure, mais il semble savoir de quoi il parle

La théorie de la cognition de Douglas Hofstadter

Professeur de sciences cognitives et de littérature comparée à l’Indiana University
« La cognition, c’est la reconnaissance » (cognition is recognition)
Célèbre pour Gödel, Escher, Bach: An Eternal Golden Braid, lauréat du prix Pulitzer en 1980
Théorie développée au fil de décennies de recherche : « voir comme » (seeing as) est l’essence de la pensée
- Reconnaître une tache de couleur comme une voiture, une autre comme un porte-clés
- Reconnaître la lettre « A », quel que soit la police ou une écriture manuscrite maladroite
Ce même processus fonde des reconnaissances plus abstraites
- Quand un maître d’échecs examine l’échiquier, des années de pratique se condensent dans sa manière de voir : le fou blanc est faible, la finale sera probablement nulle
- Reconnaître un tourbillon dans un cours d’eau comme un signe qu’il est dangereux à traverser
- Reconnaître dans une réunion à laquelle on assiste une situation de « l’empereur est nu »
- Le fils de 2 ans de l’auteur reconnaît qu’une promenade en poussette en fin de matinée peut être l’occasion d’un croissant, et le réclame
Pour Hofstadter, c’est le cœur de l’intelligence

La théorie de l’espace de grande dimension de Pentti Kanerva

Hofstadter fut d’abord l’un des détracteurs de l’IA
- Il a écrit que la majeure partie de la recherche en IA n’avait rien à voir avec la véritable pensée, et l’auteur partageait cet avis à l’université dans les années 2000
Exception : son intérêt pour le groupe de l’UC San Diego et son admiration pour les travaux du scientifique cognitif finno-américain méconnu Pentti Kanerva
Kanerva a découvert des propriétés singulières dans les mathématiques des espaces de grande dimension
- Dans un espace de grande dimension, deux points pris au hasard peuvent être très éloignés l’un de l’autre
- Paradoxalement, chaque point possède autour de lui un grand nuage de voisins, de sorte qu’en s’approchant « suffisamment », on le retrouve facilement
- Cela évoque la manière dont fonctionne la mémoire
Dans son livre de 1988, Sparse Distributed Memory, il affirme que pensées, sensations et souvenirs peuvent être représentés comme des coordonnées dans un espace de grande dimension
- Le cerveau est le matériel idéal pour stocker ce type d’éléments
- Chaque souvenir possède une sorte d’adresse, définie par les neurones qui s’activent lorsqu’on le rappelle
- Une nouvelle expérience fait décharger un nouvel ensemble de neurones et représente une nouvelle adresse
- Deux adresses peuvent différer sur de nombreux plans tout en se ressemblant sur d’autres
- Une perception ou un souvenir peut déclencher d’autres souvenirs voisins
Exemples : l’odeur du foin rappelle un camp d’été, les trois premières notes de la Cinquième de Beethoven font anticiper la quatrième, une position d’échecs jamais vue évoque d’anciennes parties

La conversion de Hofstadter

Hofstadter a compris que Kanerva décrivait une « machine à voir comme » (seeing as machine)
Dans la préface du livre de Kanerva : « Le modèle de mémoire de Pentti Kanerva a été pour moi une révélation. C’était la première recherche qui me permettait d’entrevoir le but lointain de comprendre comment fonctionne le cerveau dans son ensemble »
Toutes les formes de pensée (à la Joyce, à la Proust, logique) dépendent de la survenue de la bonne chose au bon moment
- C’est ainsi que nous comprenons dans quelle situation nous nous trouvons
Le livre de Kanerva a disparu du champ de vision, et la propre notoriété de Hofstadter a elle aussi décliné
- Il n’apparaît plus parfois qu’à travers ses critiques des nouveaux systèmes d’IA
En 2018, à propos de Google Translate et d’autres : « Il manque encore profondément à cette approche quelque chose que véhicule le mot compréhension (understanding) »
Puis GPT-4 sort en 2023 : moment de conversion pour Hofstadter
- « Je suis déconcerté par une partie de ce que font ces systèmes. Il y a dix ans à peine, je ne l’aurais pas imaginé »
- Même les détracteurs les plus obstinés ne peuvent plus les rabaisser
- Un programme capable de traduire, faire des analogies, improviser et généraliser au niveau d’un expert
- On ne peut pas dire qu’il ne comprend pas
« Il fait quelque chose de très proche de la pensée. D’une manière un peu étrangère, mais on peut dire qu’il pense »

L’espace vectoriel de grande dimension des LLM

Les LLM possèdent au cœur une « machine à voir comme »
Chaque mot est représenté par une série de nombres correspondant à des coordonnées (vecteurs) dans un espace de grande dimension
Dans GPT-4, les vecteurs de mots ont des milliers de dimensions, décrivant avec finesse leurs ressemblances et différences avec tous les autres mots
Pendant l’entraînement, le modèle ajuste les coordonnées des mots lorsqu’il commet une erreur de prédiction
- Les mots qui apparaissent ensemble dans les textes se rapprochent dans l’espace
Cela crée des représentations étonnamment denses de l’usage et du sens, et l’analogie devient un problème de géométrie
Exemple classique : si l’on soustrait « France » du vecteur du mot « Paris » puis qu’on ajoute « Italy », le vecteur le plus proche est « Rome »
Les LLM « vectorisent » aussi les images pour en encoder le contenu, l’ambiance et même les expressions du visage
- Avec suffisamment de détails pour les redessiner dans un style donné ou écrire un paragraphe
Quand Max a demandé de l’aide pour l’arroseur du terrain de jeu, le modèle ne s’est pas contenté de recracher du texte
- La photo de plomberie a été compressée en un vecteur capturant ses caractéristiques les plus importantes, avec le prompt de Max
- Le vecteur sert d’adresse pour appeler des mots et concepts voisins
- Les idées en appellent successivement d’autres, pendant que le modèle construit un sens de la situation
- Puis il rédige une réponse en « gardant ces idées à l’esprit »

Les recherches d’Anthropic sur l’exploration interne

L’auteur a lu une interview de Trenton Bricken, chercheur chez Anthropic
- Il travaille avec ses collègues à explorer l’intérieur de Claude (la série de modèles d’IA d’Anthropic)
- Cette recherche n’a pas fait l’objet d’une évaluation par les pairs ni d’une publication dans une revue scientifique
L’équipe a identifié des ensembles de neurones artificiels, ou « caractéristiques » (features), qui s’activent lorsque Claude s’apprête à dire certaines choses
Les caractéristiques fonctionnent comme des boutons de volume pour des concepts
- Si on les augmente, le modèle ne parle plus que de cela
- Dans une expérience de contrôle de la pensée, lorsqu’ils ont amplifié la caractéristique représentant le Golden Gate Bridge, une demande de recette de gâteau au chocolat a produit des ingrédients comme « 1/4 de tasse de brouillard sec » et « 1 tasse d’eau de mer tiède »
Bricken évoque l’architecture Transformer de Google
- La recette d’organisation des réseaux neuronaux qui sert de base aux principaux modèles d’IA
- Le « T » de ChatGPT signifie « Transformer »
Selon Bricken, les mathématiques au cœur de l’architecture Transformer sont très proches d’un modèle proposé il y a des décennies par Pentti Kanerva dans « Sparse Distributed Memory »

Influences croisées entre neurosciences et IA

Faut-il être surpris par les correspondances entre l’IA et le cerveau humain ?
- Les LLM sont des réseaux neuronaux artificiels dont le développement a été aidé par des psychologues et des neuroscientifiques
Ce qui est plus étonnant, c’est que ces modèles, en s’exerçant à une tâche simple — prédire des mots —, se mettent à se comporter d’une manière semblable au cerveau
Aujourd’hui, les neurosciences et l’IA sont de plus en plus imbriquées
- Les spécialistes du cerveau utilisent l’IA comme une sorte d’organisme modèle
Evelina Fedorenko, neuroscientifique au MIT, utilise les LLM pour étudier la façon dont le cerveau traite le langage
- « Je n’aurais jamais pensé pouvoir réfléchir à ce genre de choses toute ma vie. Je ne pensais pas que nous disposerions d’un modèle suffisamment bon. »
On dit souvent que l’IA est une boîte noire, mais c’est peut-être l’inverse qui est vrai
- Les scientifiques peuvent explorer l’activité de neurones artificiels individuels, voire la modifier
Kenneth Norman, neuroscientifique à Princeton : « Disposer d’un système opérationnel qui implémente une théorie de l’intelligence humaine, c’est le rêve des neurosciences cognitives »
- Il avait créé un modèle informatique de l’hippocampe (la zone du cerveau qui stocke les souvenirs épisodiques), mais auparavant il était si simple qu’on ne pouvait y injecter qu’une approximation grossière de ce qui peut entrer dans l’esprit humain
- « Maintenant, nous pouvons donner au modèle de la mémoire exactement les mêmes stimuli qu’à une personne »

L’analogie avec les frères Wright

Les frères Wright ont étudié les oiseaux dans leurs premiers efforts pour construire un avion
- Ils ont découvert que les oiseaux décollaient face au vent (alors qu’une personne raisonnable aurait supposé qu’il valait mieux avoir le vent dans le dos)
- Ils tordaient les extrémités de leurs ailes pour garder l’équilibre
Ces découvertes ont influencé la conception de leurs premiers planeurs
Ils ont ensuite construit une soufflerie de six pieds de long pour tester un ensemble d’ailes artificielles dans des conditions précisément contrôlées
Le vol de leur planeur suivant a été bien plus réussi
Étrangement, ce n’est qu’après avoir fabriqué une machine volante fonctionnelle qu’ils ont pu comprendre précisément comment les oiseaux s’y prenaient

Une expérience en soufflerie sur la pensée elle-même

L’IA permet aux scientifiques de mettre la pensée elle-même dans une soufflerie
L’article des chercheurs d’Anthropic « On the Biology of a Large Language Model » (un titre provocateur)
- décrit l’observation de la manière dont Claude répond aux requêtes et des « circuits » — des chaînes de caractéristiques qui réalisent ensemble des calculs complexes
- rappeler le bon souvenir est une étape vers la pensée
- combiner et manipuler des souvenirs au sein d’un circuit en est une autre
Une vieille critique adressée aux LLM veut qu’ils ne puissent ni planifier ni raisonner, puisqu’ils doivent générer leurs réponses un token à la fois
Lorsqu’on demande à Claude de compléter, dans un poème, un vers de recherche qui rime, ses circuits envisagent d’abord le dernier mot du nouveau vers afin de garantir la rime
- puis ils remontent en arrière pour écrire toute la ligne
Les chercheurs d’Anthropic y voient une preuve que le modèle participe réellement à une forme de planification
En plissant un peu les yeux, on peut avoir l’impression que le fonctionnement interne de l’esprit devient pour la première fois visible

La nécessité d’un scepticisme mesuré

Kenneth Norman, neuroscientifique à Princeton : « Ce qui m’inquiète, c’est que les gens sont passés de “je suis vraiment sceptique à ce sujet” à abaisser complètement leur garde »
- « Il reste encore beaucoup de choses à résoudre »
L’auteur fait partie des personnes que Norman vise ici (il a peut-être été trop facilement impressionné par la convergence entre Sparse Distributed Memory et le modèle d’Anthropic)
Ces une ou deux dernières années, il a commencé à croire Geoffrey Hinton quand il dit : « Le deep learning finira par tout faire » (Hinton a récemment reçu le prix Nobel pour ses recherches sur l’IA)
Mais des modèles plus grands ne sont pas toujours de meilleurs modèles
- la courbe représentant les performances des modèles en fonction de leur taille commence à s’aplatir
- il devient difficile de trouver des données de haute qualité que les modèles n’ont pas encore digérées, et la puissance de calcul coûte de plus en plus cher
Lorsque GPT-5 est sorti en août, il n’a apporté qu’une amélioration progressive
- une déception suffisamment grave pour menacer de faire éclater la bulle d’investissement dans l’IA
Le moment présent exige une forme intermédiaire de scepticisme
- prendre les modèles d’IA actuels au sérieux sans croire pour autant qu’il ne reste plus de problèmes difficiles à résoudre

Concevoir des modèles qui apprennent avec l’efficacité des humains

Le problème le plus important : comment concevoir des modèles qui apprennent avec autant d’efficacité que les humains
On estime que GPT-4 a été exposé à des milliers de milliards de mots pendant son entraînement
- un enfant n’a besoin que de quelques millions pour devenir fluent
Les cogniticiens expliquent que le cerveau du nourrisson contient des « biais inductifs (inductive biases) » spécifiques qui accélèrent l’apprentissage
- bien sûr, le cerveau est le produit de millions d’années d’évolution, ce qui constitue en soi une forme de données d’entraînement
Les bébés humains ont l’attente que le monde est composé d’objets et que les autres êtres ont des croyances et des intentions
- quand la mère dit « banane », le nourrisson relie ce mot à l’objet jaune dans son ensemble, pas à son extrémité ni à sa peau
Les nourrissons mènent de petites expériences : peut-on manger ceci ? Jusqu’où puis-je lancer cela ?
Ils sont motivés par des émotions comme le désir, la curiosité et la frustration
Les enfants essaient sans cesse de faire quelque chose d’un peu au-delà de leurs capacités
Si l’apprentissage est si efficace, c’est parce qu’il est incarné (embodied), adaptatif, intentionnel et continu
Pour vraiment comprendre le monde, il faut peut-être y prendre part

La pauvreté de l’expérience de l’IA

L’expérience de l’IA est si pauvre qu’on ne peut pas vraiment parler d’« expérience »
Les grands modèles de langage sont entraînés sur des données déjà extrêmement raffinées
Tsao, neuroscientifique à UC Berkeley : « Si cela fonctionne, c’est parce que cela s’appuie sur le langage (piggybacking) »
- le langage ressemble à une expérience prédigérée
- les autres types de données ont une densité de sens plus faible
Sam Gershman, cogniticien à Harvard : « Pourquoi n’y a-t-il pas eu de révolution comparable du côté de l’inférence à partir de données vidéo ? »
- les modèles de vision dont nous disposons ont encore du mal avec le raisonnement de bon sens sur la physique
Un modèle récent de DeepMind peut générer des vidéos où la peinture se mélange correctement et où des labyrinthes sont résolus
- mais il peut aussi montrer du verre qui rebondit au lieu de se briser, et des cordes qui se froissent en nœuds en défiant les lois de la physique
Ida Momennejad, neuroscientifique cognitive chez Microsoft Research, a mené une expérience consistant à donner à un LLM une visite virtuelle d’un bâtiment, puis à lui poser des questions sur des trajets et des raccourcis
- un type de raisonnement spatial facile pour un humain
- sauf dans les configurations les plus élémentaires, l’IA échoue ou a tendance à halluciner des chemins qui n’existent pas
- « Est-ce qu’elle planifie vraiment ? Pas tant que ça »

La ruée irréfléchie de l’industrie de l’IA

Lors de conversations avec des neuroscientifiques, l’auteur a perçu une inquiétude : l’industrie de l’IA fonce de manière quelque peu irréfléchie
Brenden M. Lake, spécialiste des sciences cognitives à Princeton : si l’objectif est de créer un esprit artificiel aussi compétent que l’esprit humain, « nous n’entraînons pas les systèmes de la bonne manière »
Une fois l’entraînement terminé, le « cerveau » du réseau neuronal est figé
- Si l’on donne au modèle des informations sur lui-même, cela ne reconnecte pas ses neurones
- À la place, on utilise un substitut grossier : on note quelques lignes de texte (« l’utilisateur a un nourrisson et apprend le français »)
- Puis on lui demande d’en tenir compte avant de donner d’autres instructions
Le cerveau humain, lui, se met continuellement à jour
Une belle théorie sur l’un des mécanismes : pendant le sommeil, des instantanés sélectionnés de la mémoire épisodique sont rejoués pour entraîner le néocortex
- L’espace de pensée de haut niveau se creuse sous l’effet des souvenirs rejoués
- On se réveille avec une façon légèrement nouvelle de voir les choses

Les problèmes de la communauté IA

La communauté IA est trop intoxiquée par son avancée fulgurante et trop investie financièrement pour ne pas faire parfois comme si le progrès était inévitable et qu’il ne restait plus de science à faire
La science a parfois cette propriété inconfortable de stagner
La Silicon Valley appelle les entreprises d’IA des « labs » et certains employés des « chercheurs », mais au fond il s’agit d’une culture d’ingénierie qui fait tout ce qui fonctionne
Cohen : « Je suis très surpris de voir à quel point la communauté du machine learning ne se soucie ni de regarder ni de respecter son histoire antérieure et les sciences cognitives »

Différences fondamentales avec le cerveau

Les modèles d’IA actuels ont réussi grâce à des découvertes faites il y a des décennies sur le cerveau, mais restent profondément différents du cerveau
Quelles différences sont accessoires et lesquelles sont fondamentales ?
- Chaque groupe de neuroscientifiques a sa propre théorie
- Et ces théories peuvent désormais être testées d’une manière auparavant impossible
Mais personne ne s’attend à une réponse facile
Les problèmes qui continuent de tourmenter les modèles d’IA sont « résolus en identifiant soigneusement les façons dont les modèles ne se comportent pas de manière aussi intelligente que nous le souhaitons, puis en les corrigeant »
- « Cela reste un processus avec des scientifiques humains dans la boucle »

Comparaison avec le Human Genome Project

Dans les années 1990, des milliards de dollars ont été injectés dans le Human Genome Project
- Avec l’hypothèse que le séquençage de l’ADN permettrait de résoudre les problèmes les plus épineux de la médecine — cancer, maladies génétiques, voire vieillissement
C’était une époque de fanfaronnade et de confiance
- L’époque de la brebis clonée Dolly et de Jurassic Park
- La biotechnologie dominait, et les commentateurs se demandaient si les humains devaient jouer à Dieu
Les biologistes ont vite découvert que la réalité était plus complexe
- Ils n’ont pas guéri le cancer ni trouvé la cause d’Alzheimer ou de l’autisme
- Ils ont appris que l’ADN ne raconte qu’une partie de l’histoire de la vie
En réalité, on peut soutenir que la biologie a été emportée par une forme de fièvre du gène
- Parce qu’elle disposait des moyens d’étudier et de comprendre l’ADN, elle s’y est focalisée
Pourtant, personne ne dirait que Francis Crick avait tort, le jour où il a aidé à confirmer la structure de l’ADN en 1953, d’entrer dans un pub de Cambridge et de déclarer « nous avons découvert le secret de la vie »
- Lui et ses collègues ont plus que presque quiconque contribué à désenchanter la vie
- Les décennies qui ont suivi leur découverte ont été parmi les plus productives et exaltantes de l’histoire des sciences
- L’ADN est devenu un terme familier, et tous les lycéens apprennent la double hélice

Perspectives et inquiétudes à l’ère de l’IA

Dans l’IA aussi, nous sommes à nouveau dans un moment de fanfaronnade et de confiance
Sam Altman parle de lever un demi-billion de dollars pour construire Stargate, un nouveau cluster de data centers IA aux États-Unis
Les gens discutent de la course à la superintelligence avec un sentiment de gravité et d’urgence qui peut sembler infondé, voire ridicule
Le soupçon de l’auteur : si des gens comme Amodei et Altman font des déclarations messianiques, c’est qu’ils croient que le schéma fondamental de l’intelligence est désormais résolu
- Le reste ne serait qu’une question de détails

Réactions contrastées des neuroscientifiques

Certains neuroscientifiques aussi croient qu’un seuil important a été franchi
Uri Hasson, de Princeton : « Je pense vraiment que les réseaux neuronaux peuvent être le bon modèle de la cognition »
- Cela l’enthousiasme autant que cela le met en colère
Hasson : « J’ai l’inquiétude inverse de celle de la plupart des gens »
- « Ce qui m’inquiète, ce n’est pas que ces modèles nous ressemblent. C’est que nous ressemblions à ces modèles »
Si de simples techniques d’entraînement peuvent amener un programme à se comporter comme un humain, alors les humains ne sont peut-être pas aussi spéciaux que nous le pensions
Cela pourrait aussi signifier que l’IA peut nous dépasser non seulement en savoir, mais aussi en jugement, originalité et ruse, et donc en pouvoir
Hasson : « En ce moment, j’ai peur de réussir à comprendre comment fonctionne le cerveau »
- « Poursuivre cette question a peut-être été une immense erreur pour l’humanité »
Il compare les chercheurs en IA aux scientifiques du nucléaire des années 1930
- « C’est la période la plus passionnante de leur vie. En même temps, ils savent que ce sur quoi ils travaillent a des implications majeures pour l’humanité. Mais ils ne peuvent pas s’arrêter, à cause de leur curiosité d’apprendre »

Les sentiments ambivalents de Hofstadter

Le livre préféré de l’auteur de Hofstadter : Fluid Concepts and Creative Analogies: Computer Models of the Fundamental Mechanisms of Thought
- Il l’a électrisé pendant ses années d’université
- Son postulat : des questions comme « qu’est-ce que la pensée ? » ne sont pas seulement philosophiques, elles ont une vraie réponse
- Lors de sa publication en 1995, Hofstadter et son groupe de recherche ne pouvaient qu’esquisser ce que pourrait être cette réponse
L’auteur se demandait si Hofstadter serait enthousiasmé par l’idée que les chercheurs en IA aient peut-être atteint ce qu’il désirait : une explication mécanique des fondements de la pensée
Mais, dans leur échange, Hofstadter semblait profondément déçu et effrayé
La recherche actuelle en IA « confirme beaucoup de mes idées, mais ôte de sa beauté à ce qu’est l’humanité »
« Quand j’étais bien plus jeune, je voulais connaître les fondements de la créativité, les mécanismes de la créativité. C’était mon Graal. Mais maintenant, je veux que cela reste un mystère »
Le secret de la pensée est peut-être plus simple que quiconque ne l’avait imaginé
- Peut-être du genre à pouvoir être compris par un lycéen, voire par une machine

7 commentaires

bobcat 2025-11-07

L’apprentissage automatique couvre plusieurs domaines, mais curieusement, ce type de réaction évangéliste n’apparaît que du côté des LLM. C’est extrêmement intéressant.
Même en étant généreux, on en est encore au stade où ça bute sur l’argument de la chambre chinoise, et le fait d’avoir trop vu des gens comme Altman bluffer sur l’AGI ne fait que renforcer cette impression.

savvykang 2025-11-08

C’est juste parce que c’est la dernière mode.

conanoc 2025-11-06

C’est le domaine qui m’intéresse le plus, donc je trouve ça intéressant.

Le passage qui mentionne les vector embeddings pour expliquer la compréhension correspond aussi à ma façon de voir les choses. Comprendre, c’est en fin de compte la similarité, et cette similarité peut être implémentée sous forme de similarité vectorielle. Nous ne pouvons « comprendre » un nouvel objet qu’à travers son degré de ressemblance avec ce que nous connaissons déjà.

La pensée repose sur la compréhension, mais sa nature est différente. La pensée se rapproche davantage d’une « action effectuée par l’esprit », et comme la génération du next token par un LLM peut aussi être considérée comme une forme d’« action », on peut dire qu’un LLM pense lui aussi. La vraie question n’est pas de savoir si un LLM peut penser, mais s’il peut penser « aussi bien qu’un humain », et pour l’instant il en est encore très loin.

ndrgrd 2025-11-06

Je n’ai encore trouvé aucun agent de codage vraiment satisfaisant… Pour la plupart des tâches, il faut tout faire soi-même, et dès qu’on lui demande plus que de l’autocomplétion ou des snippets, il échoue.
Je me demande ce qu’ils utilisent dans l’exemple de l’article.