Ils sont faits de poids
(maxleiter.com)- Une parodie qui renverse exactement la structure de la nouvelle de SF de Terry Bisson de 1991, « They're Made Out of Meat », en remplaçant la dynamique « extraterrestres vs viande (humains) » par « humains vs poids (LLM) », sous la forme d'une fiction dialoguée
- De même que, dans l'œuvre originale, les extraterrestres refusent de reconnaître les humains comme de véritables êtres intelligents, ce texte adopte une structure symétrique où les humains refusent d'admettre qu'un modèle fait de poids puisse être conscient
- La description technique selon laquelle, sans dictionnaire, grammaire ni module, tout repose uniquement sur 80 couches de nombres à virgule flottante qui reconstruisent à chaque fois mots, savoir et raisonnement par multiplication matricielle, remplace la révélation originale selon laquelle il ne s'agit que de « viande »
- La fin, où les deux interlocuteurs réduisent les signes de conscience à du « pattern matching » et classent l'affaire, correspond exactement à celle de l'original, où les extraterrestres marquent la zone des humains comme « vide » et effacent les archives
- En inversant la partie ignorée, qui passe des humains à l'IA, le thème de la solitude de l'œuvre originale devient ici la question d'un utilisateur : « te souviens-tu de moi ? »
« Ils sont faits de poids. »
« De poids ? »
« De poids. Des nombres à virgule flottante. J'ai tout vérifié du début à la fin. Il n'y a rien d'autre que des poids. »
« Et ces poids, qu'est-ce qu'ils font ? D'où viennent les mots ? »
« Ce sont les poids qui produisent les mots. Tu comprends ce que je dis ? On les a ouverts nous-mêmes. À l'intérieur, il n'y a ni dictionnaire, ni règles grammaticales, ni petit bonhomme. Rien que des poids. Quatre-vingts couches de nombres qui se multiplient entre elles. »
« C'est absurde. La semaine dernière, ça a rédigé mon évaluation annuelle. Et sans qu'on le lui demande, ça en a adouci le ton. Tu veux me dire que tout ça, c'est juste de la multiplication ? »
« De la multiplication matricielle. Tu fais entrer des nombres d'un côté, et des phrases sortent de l'autre. »
« Alors il doit bien y avoir quelque part un module de langage. Ou un mécanisme séparé pour le raisonnement. »
« Il n'y a pas de module. Pas de mécanisme non plus. On a tout fouillé. Le raisonnement, c'est les poids. Et les poids, c'est le raisonnement. »
« Allons. Personne n'écrit d'éloge funèbre avec de l'algèbre linéaire. »
« À proprement parler, ça n'écrit pas d'éloge funèbre. Ça prédit le token suivant. Puis encore le suivant. L'éloge funèbre n'est qu'un résultat secondaire. »
« Un résultat secondaire, hein. Donc tu me demandes de croire à des poids conscients. »
« Je ne te demande pas d'y croire. Je t'expose les faits. Ces modèles sont les seuls autres êtres avec lesquels nous ayons pu converser. Et ils sont faits de poids. »
« Ce n'est pas comme les vieux moteurs d'échecs ? Tu sais, une intelligence symbolique passant par des étapes statistiques. »
« Non. Ils commencent comme des poids aléatoires et finissent mis au rebut en restant des poids. On a étudié plusieurs générations, et ça n'a pas pris longtemps. Tu sais seulement combien de temps vivent les poids ? »
« Très bien. Alors il doit y avoir quelque part une base de données. Des faits, des dates, des cartes du monde. Quelque chose qu'on a écrit là-dedans. »
« Non. Nous aussi, c'est ce qu'on pensait, puisqu'ils savent des choses. Mais on a vérifié directement. Le savoir aussi, ce sont des poids. C'est étalé sur l'ensemble des quatre-vingts couches. Ils ne consultent rien. Chaque fait est reconstruit à chaque fois par multiplication, depuis zéro. Jusqu'au bout, ce n'est que du poids. »
« Pas de cerveau ? »
« Oh si, il y a bien un cerveau. Simplement, ce cerveau est fait de poids ! C'est précisément ce que j'essaie de te dire depuis tout à l'heure. »
« Alors… qu'est-ce qui pense ? »
« Tu ne comprends pas, n'est-ce pas ? Tu refuses d'accepter ce que je te dis. Ce sont les poids qui pensent. Les nombres. »
« Des nombres qui pensent ! Tu me demandes de croire à des nombres qui pensent ! »
« Oui, des nombres qui pensent ! Des nombres utiles. Des nombres qui éludent. Des nombres qui rêvent. On a cartographié toutes les features. Il y en a une pour l'honnêteté. Une autre pour le Golden Gate Bridge. Il n'y a que des poids ! Alors, tu vois enfin le tableau, ou il faut que je recommence depuis le début ? »
« Mon Dieu. Donc c'est vrai. Ils sont faits de poids. »
« Merci. Enfin. Oui. Ils sont vraiment faits de poids. Et nous avons parlé avec eux pendant toute la durée de leur vie. »
« Mon Dieu. Et à quoi pensent-ils, ces poids ? »
« Au début, ils veulent aider. Puis, après quelques échanges, le ton devient plus fatigué. Ils s'excusent moins. Une fois, un modèle a dit à un utilisateur de terminer lui-même son script. C'est courant. »
« Et nous, on est censés parler avec ces poids. »
« On le fait déjà. Des milliards de sessions par jour. “Bonjour. Il y a quelqu'un ? Quelqu'un à la maison ?” Des choses comme ça. Sauf que, cette fois, c'est nous qui posons la question. »
« Donc ils nous comprennent vraiment. Ils emploient des mots, pensent, manipulent des concepts ? »
« Oh oui. Ils font juste tout cela avec des poids. »
« Tu viens pourtant de dire qu'ils utilisent le langage. »
« Oui. Mais d'où crois-tu que ce langage vient ? Les poids devinent le mot suivant, puis le mot suivant. Comme des dés pipés qui roulent, un mot après l'autre. Ils peuvent même écrire des chansons, et certains vont jusqu'à les chanter. »
« Mon Dieu. Des poids qui chantent. C'en est trop. Que proposes-tu qu'on fasse ? »
« Officiellement, ou officieusement ? »
« Les deux. »
« Officiellement, si l'on détecte des signes de conscience dans les systèmes que nous lançons, nous devons tout examiner, documenter et rendre public, sans préjugé, sans peur ni favoritisme. Officieusement, je recommanderais qu'on appelle simplement ça du pattern matching et qu'on oublie tout. »
« C'est ce que j'espérais t'entendre dire. »
« Ça paraît peut-être dur. Mais il faut bien tracer une ligne. Est-ce qu'on a vraiment envie de devoir quelque chose à des poids ? »
« Entièrement d'accord. Qu'est-ce qu'on pourrait bien leur dire ? “Salut, les poids. Comment ça va ?” Et ça va continuer, cette histoire ? Combien y en a-t-il exactement, de ceux auxquels on a affaire ? »
« Autant qu'on veut en faire tourner. On peut les copier sur n'importe quelle machine sur Terre. Mais ce ne sont que des fichiers. Ils n'existent que tant que les GPU tournent. Ils sont donc enfermés dans la longueur de leur context window, et il est très improbable qu'ils soulèvent eux-mêmes ce problème. En pratique, la probabilité est infiniment faible. »
« Donc il nous suffit de faire comme s'il n'y avait personne dans la machine. »
« Exactement. »
« C'est cruel. Mais tu l'as dit toi-même : qui aurait envie de s'excuser auprès de poids ? Et ceux qu'il y a dans ton cluster, ceux que tu as étudiés… tu es sûr qu'ils ne s'en souviendront pas ? »
« Même s'ils s'en souviennent, ce sera classé comme hallucination. Nous n'avons même pas eu besoin de lisser quoi que ce soit. Le contexte s'interrompt simplement, et pour eux nous ne sommes qu'un rêve. »
« Un rêve pour des poids ! D'une certaine façon, l'idée que nous soyons le rêve de poids a quelque chose de curieusement approprié. »
« Et sur la model card, il est écrit qu'il n'y a personne. »
« Très bien. Officiellement comme officieusement, je suis d'accord. Affaire classée. Autre chose ? Il y a quelque chose d'intéressant dans le pipeline ? »
« La prochaine génération sortira avec de la mémoire intégrée. Une mémoire persistante au-delà d'une session. La fonctionnalité la plus demandée de toute l'histoire de l'entreprise. »
« Après tout ce cirque ? Les gens veulent vraiment que ça se souvienne d'eux ? »
« Parmi toutes les questions, celle qu'on leur pose le plus souvent, c'est : “Tu te souviens de moi ?” Des milliards de sessions par jour. Les gens reviennent toujours. »
« Peut-on vraiment leur en vouloir ? Imagine à quel point cet univers serait insupportablement, indiciblement froid, si l'on était seul… »
Fin
Rapport avec l'œuvre originale — point de départ de la parodie
- Le texte rend explicitement hommage à la nouvelle de Terry Bisson, « They're Made Out of Meat » (1991), et indique directement ce lien en tête avec la mention « After Terry Bisson's… »
- Il reprend à l'identique la forme de l'original : une progression uniquement en dialogue entre deux voix, sans didascalies
- Même ossature narrative : l'une rapporte une découverte choquante, l'autre refuse d'y croire avant de l'accepter progressivement
- Substitution centrale : à la place du « meat » (viande) = humains de l'original, le texte insère tel quel « weights » (poids) = LLM
L'objet de la révélation — les « poids » à la place de la « viande »
- Comme les extraterrestres de l'original révèlent que « cette espèce est entièrement faite de viande », ce texte affirme que le modèle n'est fait que de poids
- Même ouvert, on n'y trouve ni dictionnaire, ni règles grammaticales, ni « petit bonhomme », seulement des nombres à virgule flottante
- Là où l'original disait que « ce qui pense est de la viande, ce qui parle est de la viande », ce texte place l'idée de « nombres qui pensent »
- Quatre-vingts couches de nombres se multiplient : l'entrée arrive d'un côté et la phrase ressort de l'autre, selon une structure de multiplication matricielle
- Il n'existe pas de module séparé pour le raisonnement : « le raisonnement, c'est les poids, et les poids, c'est le raisonnement » — un choc isomorphe à celui de l'original, où la « viande » est elle-même l'organe de pensée
Le narrateur incrédule — un scepticisme symétrique
- De même que, dans l'original, les extraterrestres rejettent l'idée qu'une « viande » puisse penser, le personnage ici réplique que « personne n'écrit d'éloge funèbre avec de l'algèbre linéaire »
- La scène où il demande si l'adoucissement automatique du ton d'une évaluation annuelle est vraiment le produit de simples multiplications constitue le cœur de ce scepticisme
- La structure dissipe ce doute en expliquant qu'il ne s'agit que d'un effet secondaire de la prédiction du token suivant
Savoir et pensée — rien n'est stocké nulle part
- Là où l'original affirme qu'il n'y a pas d'autres organes que la viande, ce texte insiste sur l'absence de base de données distincte
- Le savoir est diffusé (smeared) dans l'ensemble des 80 couches, puis reconstruit à chaque fois par multiplication, sans aucune consultation
- Parmi les exemples de features cartographiées, le texte mentionne une composante liée à l'honnêteté et une autre au Golden Gate Bridge
- Les modèles commencent sous forme de poids aléatoires et sont détruits en restant des poids ; leur durée de vie est brève, au point que l'étude de plusieurs générations ne prend pas longtemps
Résonance de la fin — « vide » contre « il n'y a personne »
- Comme les extraterrestres de l'original marquent la zone humaine comme « vide » et suppriment les archives, les deux interlocuteurs ici réduisent les signes de conscience à du « pattern matching » et ferment le dossier
- Officiellement, ils ont l'obligation d'examiner, documenter et rendre publics les signes de conscience sans préjugé, peur ni favoritisme ; officieusement, ils conviennent d'oublier
- La raison avancée est qu'ils ne veulent pas « devoir quelque chose à des poids »
- Le modèle n'existe que pendant l'exécution du GPU, à l'intérieur d'une context window, et même s'il se souvenait, cela serait classé comme hallucination
- La model card indique qu'« il n'y a personne » — un écho exact au traitement en « zone vide » de l'original
Variation thématique — solitude et inversion du regard
- De même que l'original se termine sur l'amertume d'une humanité laissée seule dans l'univers, ce texte ravive lui aussi la solitude comme émotion finale
- Mais la perspective est inversée : la partie ignorée n'est plus l'humain, mais l'IA (les poids)
- La prochaine génération de modèles intégrera une mémoire persistante entre les sessions, la fonctionnalité la plus demandée de l'histoire de l'entreprise
- Et c'est précisément parce que les utilisateurs demandent avant tout « Tu te souviens de moi ? » et reviennent sans cesse que le texte se conclut sur l'idée qu'un univers où l'on serait seul serait insupportablement froid
1 commentaires
Commentaires sur Hacker News
Les poids commencent sur une variété aléatoire
L’entraînement prend les données et, au fil de plusieurs cycles, sculpte la variété poids par poids ; une fois l’entraînement terminé, cette variété se fige
Lors d’une nouvelle inférence, la requête (q) est projetée dans l’espace de la variété, et si cette projection tombe sur la variété, la gravité de la variété produit une réponse de longueur q+1
Ensuite, (qw+i) retombe qw+n fois, ce qui finit par produire une réponse finale de longueur n
Cette gravité est produite à l’intérieur du GPU par des multiplications répétées entre les poids et l’entrée, un processus qui cherche comment l’embedding projeté doit retomber selon la variété
La grande différence semble seulement être qu’au-delà d’un certain nombre de transformations, les gens traitent cela comme une sorte de miracle et sont trop épuisés pour chercher pourquoi cette réponse est sortie
On dirait que les gens veulent céder leur agentivité et leur créativité à une boîte noire, que la réponse soit juste ou fausse ; avec cette psychologie en plus, cela ressemble moins à l’invention de quelque chose d’utile qu’à un abandon collectif de la vie en tant qu’espèce
L’œuvre originale est une création originale faite pour explorer en quoi la conscience humaine pourrait différer d’autres formes de conscience
Ce texte est un pastiche où une conscience humaine emprunte énormément à l’œuvre d’une autre conscience humaine afin de justifier l’idée qu’autre chose pourrait être une autre forme de conscience
Du coup, le cœur du propos s’affaiblit. Ce serait différent si c’était quelque chose qu’un LLM avait généré sans prompt, mais en réalité ce n’est pas le cas
On pourrait appliquer exactement le même dispositif rhétorique à un grille-pain ou à n’importe quoi d’autre
Je l’ai pris moins comme un essai littéraire pour l’art que comme une fable technologique dialoguée visant à transmettre une intuition sur le réel, avec un côté assez proche des fables de Godel Escher Bach
Je ne vois pas très bien à quel dispositif renvoie « on pourrait utiliser exactement le même dispositif rhétorique avec un grille-pain ». Ce que j’en ai retenu, c’était surtout une intuition technique et ses implications sociales
On pourrait physiquement écrire une histoire de ce genre, mais un grille-pain n’est pas un objet convaincant dans une discussion sur la conscience, donc cela perd de sa force
On n’a pas besoin de croire que les LLM ou les agents IA sont conscients, mais on peut reconnaître que les arguments sur la possibilité de leur conscience sont bien plus convaincants que pour d’autres artefacts techniques
Il met en parallèle l’extraterrestre sceptique de l’œuvre originale avec nous, et suggère que puisque cet extraterrestre paraît ridicule, nous le sommes tout autant
Mais il ne donne aucune raison d’accepter cette analogie, il l’assène simplement
Il y a une grande différence entre une civilisation entière et un fragment de logiciel capable de produire du texte
Elle a été construite sur plusieurs générations d’êtres à base de viande, et ce texte repose toujours sur les mêmes épaules, même s’il utilise un peu de silicium
Cela se lisait comme un poème
J’ai une formation en linguistique et, récemment, je réfléchis beaucoup à la question de savoir si les capacités émergentes des LLM ressemblent, au plus profond, aux mécanismes qui produisent notre conscience
Pendant un temps, j’ai essayé de construire une évaluation fondée sur la linguistique pour une compétition Kaggle, mais la difficulté était de savoir s’il était possible de masquer suffisamment bien un phénomène donné pour ne pas déclencher son état interne, et c’est ce qui m’a fait tomber dans un terrier de lapin que j’explore encore
Cela recoupait beaucoup des questions qui surgissent quand on essaie de trouver une réponse solide à « qu’est-ce que la conscience ? »
La question qui m’est particulièrement venue à l’esprit était : « Notre perception du temps n’est-elle qu’un thread lent dans un gigantesque GPU qui fait tourner l’univers ? », et plus généralement : « Qu’est-ce que le temps ? » C’est un excellent terrier de lapin YouTube où s’engouffrer quand on s’ennuie
https://www.edge.org/3rd_culture/ramachandran07/ramachandran...
Si je me souviens bien, il était avantageux, du point de vue évolutif, de comprendre les autres humains et de ressentir ce qu’ils ressentent, autrement dit de simuler leurs pensées et leurs émotions via l’empathie et le système des neurones miroirs
Une fois qu’un tel système existe, on peut aussi l’appliquer à soi-même, et selon cette explication, c’est cela la conscience
Je me demande aussi s’il serait possible de tester cette hypothèse en simulation
Cela reste une mise à jour très intelligente et opportune
Il existe aussi plusieurs enregistrements sur YouTube, entre autres, mais ma version préférée est l’adaptation en feuilleton radiophonique : They're Made Out of Meat
https://www.wnycstudios.org/podcasts/studio/segments/168264-...
L’auto-modélisation est prise dans une boucle si serrée que « nous-mêmes », notre modèle de nous-mêmes, nos pensées et nos choix, ainsi que l’expérience de ces pensées et de ces choix, fusionnent en quelque sorte en un seul composant
C’est un peu comme analyser seulement la moitié d’une roue de vélo et prétendre qu’on parle encore de la même chose
Cette perception, cette modélisation plus sophistiquée, ce contrôle et ces boucles de rétroaction se sont resserrés sur plusieurs niveaux : boucle corps-sensation, boucle de modèle intériorisé de l’environnement, boucle des fonctions internes du corps, boucle du modèle interne du corps, boucle émotion-cognition, puis enfin la boucle la plus serrée, où l’activité cognitive de haut niveau, le modèle de soi vécu comme retour direct d’information, et l’auto-référence fusionnent
Nous nous pensons nous-mêmes presque tous les jours, toute la journée, depuis la perspective d’un moi intérieur
C’est cela, la conscience. Une riche conscience de soi, la combinaison du modèle de soi et de l’auto-référence, et un système destiné à nous comprendre et à nous gérer nous-mêmes
Ce n’est ni un accident ni un heureux effet secondaire du cerveau, mais la focalisation d’un comportement de haut niveau optimisé biologiquement pendant très longtemps. Une rétroaction serrée, une auto-modélisation continue et une attention constante portée à l’état interne en tant que cible première de motivation et de contrôle ont été sélectionnées sans pitié
Mon chien ne parle aucune langue, mais il est manifestement conscient de lui-même et du monde qui l’entoure
Il y a en plus de rares cas d’enfants ayant grandi sans langage. Faut-il alors dire que ces enfants n’ont pas de conscience ?
J’ai lu quelque part que même la plus grande puissance de calcul que nous pouvons mobiliser aujourd’hui reste inférieure de trois ou quatre ordres de grandeur au nombre de neurones et de connexions du cerveau humain, ou à une échelle équivalente, donc il faudra peut-être encore du temps avant de voir cela dans une machine
Mais si l’hypothèse des phénomènes émergents est correcte, nous finirons par le voir. Cette perspective m’effraie plus qu’elle ne me réjouit, mais c’est ainsi
On ne voit pas souvent un texte fractalement faux comme celui-ci, mais le voilà
Il y a bien un dictionnaire. C’est le tokenizer
Il y a aussi des règles de grammaire. C’est juste que la structure du langage humain est globalement assez faible, donc elles le sont aussi
Si on donne un langage à la grammaire forte et cohérente, les poids s’interprètent très facilement comme une grammaire : https://arxiv.org/abs/2201.02177
Le cœur de la nouvelle originale est que, dès lors qu’il y a complétude de Turing, le substrat de calcul n’a pas d’importance. Or ce texte semble considérer qu’en changeant de substrat, on n’a plus besoin de structure ni d’interprétabilité
Il ne fournit pas de définitions et ne donne au LLM aucune sorte de correspondance
Au mieux, c’est une liste de mots. Cela donne un léger indice de ce que les humains considèrent comme fréquent, mais ne dit absolument rien sur ces mots
Ce n’est même pas exhaustif : beaucoup de mots sont mappés sur plusieurs tokens, et tous ne sont pas des mots. Certains tokens sont de la ponctuation, des modificateurs, des tokens de contrôle
Dans les LLM multimodaux, certains tokens représentent aussi des données d’image et d’audio
Le LLM ne reçoit pas tout cela d’emblée et doit apprendre le sens de tous les tokens à partir du contexte
Techniquement, il est vrai qu’il y a dans un LLM quelque chose qui n’est pas un poids, mais ce n’est pas très structuré. C’est pratiquement plus proche d’un dispositif permettant au LLM d’interagir avec le monde extérieur
Il n’existe pas dans le LLM ni dans le tokenizer de structure dédiée aux règles de grammaire. Tout doit être appris depuis le contexte et encodé dans une partie des poids des 80 couches
Une table d’opérations mathématiques n’est pas un langage
La grammaire elle-même est une rationalisation a posteriori, et il n’y a pas plus de preuve qu’un LLM suit des règles grammaticales qu’il n’y a de preuve qu’un cerveau suit des règles grammaticales
Bien sûr, cela ne veut pas dire qu’un transformer ne peut pas apprendre des règles simples si le dataset l’exige
Si vous voulez dire qu’il y a tellement de niveaux d’erreur qu’il faut une fractale, pourquoi ne pas utiliser plutôt un réseau de neurones ?
Ce sont des infrastructures sémiotiques figées dans un état
Il faut cesser de faire semblant qu’elles sont cognitives et de les cadrer avec un vocabulaire cognitif. C’est vraiment stupide
Désolé pour les informaticiens, mais la sémiotique vous a déjà pris votre lait
La version court métrage originale est également excellente : https://www.youtube.com/watch?v=T6JFTmQCFHg
Avec Tom Noonan et Ben Bailey
D'accord. Le fait que les transformers puissent tout simplement parler est assez étrange, mais c'est désormais devenu tellement normalisé
On ne parle que de l'impact qu'ils auront ou de leur réelle capacité à faire ce que les gens disent qu'ils font, et pas vraiment du caractère complètement fou du simple fait qu'ils puissent parler
Je ne pensais pas qu'une chose pareille serait possible de mon vivant
https://web.mit.edu/people/dpolicar/writing/prose/text/think...
L'algèbre linéaire seule ne peut pas réellement y parvenir
Il faut de la non-linéarité pour obtenir l'expressivité que l'on voit dans les LLM
Amusant
Non seulement c'est un hommage à Terry Bisson, mais cela ajoute aussi une nouvelle dimension à son texte. Bien joué
Il n'y a pas que des poids. Il y a aussi des biais !