18 points par GN⁺ 2025-07-08 | 4 commentaires | Partager sur WhatsApp
  • Texte critique envers la tendance à anthropomorphiser les LLM comme s’ils étaient humains. Un LLM n’est au fond qu’un ensemble de multiplications matricielles et de fonctions non linéaires
  • Les séquences de langage générées par les LLM suivent des trajectoires fonctionnelles complexes, sans intervention d’« intention » ni d’« éthique » au sens humain
  • La question de l’alignement et de la sûreté des LLM consiste essentiellement à mesurer et contraindre mathématiquement la probabilité de sorties indésirables
  • Appliquer aux LLM des concepts anthropocentrés comme l’éthique ou la conscience ne fait que brouiller la discussion, en obscurcissant la définition réelle des problèmes et leurs solutions
  • La conscience humaine et les LLM sont fondamentalement différents, et l’essentiel est de comprendre la technique ainsi que d’anticiper les transformations sociales

Nécessité d’une perspective qui ne voit pas les LLM comme des humains

Problématique de l’anthropomorphisation des LLM

  • Dans les discussions sur l’IA et les LLM (grands modèles de langage), lorsque l’on parle d’alignment (alignement) ou de sécurité de l’IA, beaucoup d’experts se sentent troublés par la tendance à attribuer des propriétés humaines aux LLM (conscience, intention, etc.)
  • Un LLM peut être vu, dans son essence, comme une combinaison de MatMul (multiplication matricielle) et de fonctions non linéaires

Nature structurelle des LLM

  • Un LLM mappe les mots individuels (tokens d’entrée) dans un espace vectoriel, puis calcule la distribution de probabilité du token suivant à partir du chemin précédent, et génère la sortie séquentiellement
  • Ce processus ressemble à un "Snake dans un espace de grande dimension", et la trajectoire de génération est complexe, à la manière d’un attracteur étrange dans un système dynamique
  • Les LLM apprennent à partir de grandes quantités de textes écrits par des humains + de corpus spécialisés + de données générées automatiquement et vérifiables, ce qui leur permet d’obtenir un mapping qui imite la structure du langage humain

Trajectoires à éviter (séquences de langage), alignement et questions de sûreté

  • Certaines séquences de langage sont socialement ou éthiquement inappropriées, et on souhaite donc qu’elles ne soient pas générées
  • Mais comme il est difficile de donner une définition mathématique rigoureuse de ce qui rend un chemin indésirable, on ajuste la distribution par des exemples et contre-exemples
  • L’"alignement" et la "sûreté" des LLM consistent à mesurer mathématiquement la probabilité qu’une séquence indésirable soit générée et à en fixer les limites
  • Mais en pratique, il est impossible de définir mathématiquement avec précision le critère d’une séquence « indésirable » ; on ne peut procéder que par exemples, ce qui impose des limites réelles
  • On peut calculer la probabilité qu’une séquence donnée apparaisse avec un LLM donné, mais on ne peut pas simplement sommer ou intégrer toutes ces probabilités pour affirmer que « ce modèle produit une séquence indésirable une fois tous les N cas »

Utilité réelle des LLM

  • Les LLM permettent de résoudre par algorithmes de nombreux problèmes classiques du traitement automatique du langage naturel (NLP)
  • Exemples : résumer des documents en anglais naturel, organiser des données en structure JSON, générer des contes et des images ; autant de tâches qui étaient encore impossibles il y a 5 ou 6 ans et qui sont aujourd’hui traitées naturellement
  • Vu la courbe d’amélioration rapide, on peut s’attendre à ce qu’ils résolvent encore davantage de problèmes auparavant impossibles

Limites d’une vision humanisante

  • L’auteur s’oppose à l’idée d’attribuer aux LLM une "conscience", une "éthique", des "valeurs" ou un "but"
  • Un LLM n’est, au fond, rien d’autre qu’une "équation récursive" qui ne produit une sortie que si on lui fournit une entrée
  • Les discussions selon lesquelles l’IA « s’éveillerait » ou « développerait un sens du but » relèvent du même niveau d’erreur que prétendre qu’une simulation météorologique possède des émotions
  • Dans les débats sur l’IA, des termes anthropocentrés comme « comportement », « contraintes éthiques » ou « poursuite d’objectifs » brouillent la nature réelle du problème
  • Il s’agit d’une erreur cognitive semblable à celle par laquelle les humains anthropomorphisaient autrefois les phénomènes naturels comme la « colère des dieux » ou des « esprits maléfiques »

La bonne direction pour les débats sur l’alignement

  • Un LLM n’est qu’une fonction de génération de séquences, et l’on peut modifier les probabilités de sortie en ajustant le préfixe d’entrée
  • Pour chaque séquence de sortie indésirable, rechercher le préfixe qui maximise sa probabilité constitue aussi une approche mathématique
  • Ce type d’approche explicite, fondée sur des formules, clarifie au contraire la définition du problème et les solutions

Pourquoi l’anthropomorphisation revient-elle si souvent dans le domaine de l’IA ?

  • Une part importante des leaders du secteur de l’IA y sont entrés avec l’objectif de leur vie tourné vers la possibilité de réaliser une AGI
  • De ce fait, il est facile que des croyances liées à l’intelligence de niveau humain ou à la création d’une entité quasi divine s’immiscent dans les discussions techniques
  • L’auteur reconnaît lui-même qu’il est difficile de faire accepter l’idée qu’il faut sortir de cette perspective anthropomorphique

Différence fondamentale entre la conscience humaine et les LLM

  • L’être humain est un être intrinsèquement stratifié et complexe, ayant évolué au terme de centaines de millions d’années de sélection naturelle, de structures neuronales complexes, d’hormones, d’entrées sensorielles de haute dimension, de régulation énergétique et d’autres processus encore mal compris
  • Il est impossible de calculer la probabilité qu’un humain génère une séquence donnée
  • Les LLM sont totalement différents de la pensée humaine, et il est même difficile d’y définir la probabilité de générer « cette séquence »
  • Appliquer aux LLM des concepts humains comme la « morale » ou l’« instinct de survie » est aussi étrange que de débattre des émotions d’un programme de simulation numérique

Le vrai problème et la direction du changement

  • La classe fonctionnelle offerte par les LLM modernes est extrêmement utile et provoquera de grands changements sociaux même sans s’approcher de l’AGI
  • Même sans atteindre l’AGI, les LLM peuvent transformer profondément le monde avec la technologie actuelle
    • Une transformation générale de la société, comparable à l’électrification, est possible
  • Au cours des prochaines décennies de changements rapides, il faudra se concentrer sur les vrais problèmes (sûreté, usages, etc.)

4 commentaires

 
mirea0 2025-07-08

Plutôt que de savoir s’il faut anthropomorphiser ou non...
J’estime qu’à partir du moment où ils apprennent déjà par eux-mêmes et raisonnent, on a déjà dépassé le stade où leur sûreté peut être garantie (croire qu’à ce stade, toi l’humain, tu peux tout contrôler relève de l’arrogance).
Du point de vue de l’apprentissage, ne serait-il pas au contraire plus sûr de les faire penser comme des humains et d’être entraînés selon une perspective humaine, au moins un peu !?

 
cgl00 2025-07-11

Je pense qu’il sera impossible de garantir parfaitement la sécurité en raison de la structure même des LLM. À mon avis, leur instabilité est inévitable, et l’enjeu important est plutôt de savoir comment accorder des autorisations pour des actions physiques, comme avec les agents ou la conduite autonome.

 
kimjoin2 2025-07-08

On dirait comparer une voiture et un marathon..

 
GN⁺ 2025-07-08
Avis Hacker News
  • Je comprends très bien sur le plan technique comment fonctionnent les LLM, mais je ne pense pas que les analogies anthropomorphiques soient dénuées de sens.
    Des formules comme « un générateur qui produit probabilistiquement le mot suivant » me semblent être une abstraction de bas niveau peu pertinente quand un LLM répond à des questions complexes de modélisation du monde ou crée des histoires originales.
    C’est comme parler de 0 et de 1, de tensions de transistor, etc., lorsqu’on discute d’une API d’événements UI : c’est techniquement correct, mais inutile pour comprendre un système de plus haut niveau.
    Pour parler de phénomènes de plus haut niveau, il faut des abstractions de plus haut niveau, et nous ne savons pas très bien ce qui se passe au niveau interne.
    Les LLM imitent les humains dans une certaine mesure (au moins dans la forme de leur sortie), donc les analogies humaines sont selon moi l’abstraction la plus utile, et c’est naturellement pour cela que les gens y recourent lorsqu’ils parlent des capacités des LLM.

    • Tu dis qu’il faut des abstractions de plus haut niveau pour comprendre les phénomènes de haut niveau des LLM, mais je pense qu’on sait déjà comment l’intérieur fonctionne.
      La conception de réseaux efficaces et l’amélioration des performances dépendent fortement de la compréhension de leur fonctionnement interne (dimensions du réseau, extraction de features, attention, têtes d’attention, caching, caractéristiques de haut niveau, prévention du surapprentissage, etc.).
      Les analogies anthropomorphiques sont utiles quand on écrit des ouvrages de vulgarisation avec un vocabulaire limité, mais je n’ai pas l’impression qu’elles soient indispensables pour les praticiens.

    • À l’inverse, je pense que l’anthropomorphisation est la principale cause de la distorsion du récit autour des LLM.
      Les gens disent que les LLM pensent et raisonnent, alors qu’en réalité ils ne font pas cela.
      Et cette perception est activement encouragée par les entreprises qui vendent des LLM.
      Au final, cela brouille les discussions sur leur utilité réelle et leurs cas d’usage.

    • Je me suis souvenu de Dawkins dans The Selfish Gene, quand il parlait du « point de vue intentionnel » appliqué aux gènes.
      Décrire les gènes comme s’ils avaient une intention est inexact, mais au lieu d’écrire à chaque fois quelque chose comme « les individus porteurs de ce gène auront tendance à se comporter ainsi », il est plus simple et pratique d’utiliser les gènes comme raccourci en les présentant comme des agents orientés vers un but.
      Si l’on comprend déjà l’abstraction de bas niveau, il n’est pas nécessaire d’y rester quand on veut parler du niveau supérieur.

    • Après avoir beaucoup utilisé des modèles de langage, j’ai fini par penser que la partie la plus dangereuse des analogies humaines est l’UI conversationnelle.
      En me concentrant sur une seule paire question/réponse à la fois, ou en réduisant au maximum puis en éditant l’historique de conversation, j’ai constaté que beaucoup de problèmes d’usage des LLM diminuaient fortement.
      Après plusieurs échanges, si on demande au modèle de réexaminer la conversation ou de corriger une « hallucination », les informations erronées sont répétées, ce qui renforce au contraire la mauvaise direction prise par l’échange.
      J’ai observé exactement le même phénomène en programmation, où du mauvais code continue clairement à contaminer la conversation.

    • Contrairement au GP et à l’OP, je n’arrive pas à visualiser mentalement l’état interne de fonctionnement d’un LLM, donc je ne peux pas m’enthousiasmer autant.
      J’envie parfois les gens qui y arrivent.
      C’est peut-être lié au fait que j’ai souvent raté mes examens de maths.
      À la place, j’essaie d’imaginer tout cela de la manière la plus abstraite, visuelle et philosophique possible.
      J’ai écrit à ce sujet sur mon blog, et si quelqu’un a un retour, il peut me contacter par e-mail.

  • Je pense qu’il est trop simplificateur de voir les LLM comme de simples générateurs de séquences et de réduire leurs mauvais comportements à des séquences incorrectes.
    Les LLM possèdent un hidden state qui n’apparaît pas directement dans les tokens, et ils peuvent produire une sortie contraire à leur propre état interne en vue d’un résultat à plus long terme.
    Je me demande si appeler cela un « mensonge » constitue une anthropomorphisation excessive.
    Si c’est le cas, il nous faut alors une nouvelle terminologie permettant de décrire ce processus par lequel un LLM imite en interne un « comportement » pour minimiser la loss de prédiction.
    Il faut toujours manier les analogies avec prudence, mais cela ne les rend pas inutiles en soi.
    En revanche, une nouvelle terminologie serait trop ésotérique et difficile à diffuser auprès du grand public, ce qui fait qu’on revient finalement à des termes humains.
    Bien sûr, cela peut faire passer les LLM pour des « humains pleins de défauts » et induire en erreur, mais au moins cela réduit le jargon inutile.

    • J’ai longtemps travaillé avec des modèles à hidden state, donc ce trait me paraît très classique dans les modèles statistiques.
      Même beaucoup de manuels courants sur les LLM les décrivent comme des modèles à variables latentes.
      Les LLM ne sont au fond qu’une version immensément plus grande et plus complexe de ces modèles à variables latentes.
      En réalité, il m’est même plus facile de les décrire de façon non anthropomorphique de cette manière.
      Les modèles à variables latentes ont toujours eu quelque chose de mystérieux aux yeux de beaucoup de gens.
      Cet aspect mystérieux a sans doute contribué à la culture d’anthropomorphisation autour des LLM, tout en constituant aussi, dans une certaine mesure, une abstraction nécessaire pour communiquer efficacement et modéliser des systèmes complexes.
      Mais je pense aussi que cela alimente des attentes excessives, des discours du type « il y a une âme dans la machine » et une exagération de l’utilité réelle.

    • Je pense que les LLM sont anthropomorphisés parce que les grands vendors insistent sur ce vocabulaire pour des raisons marketing.
      Les gens s’enthousiasment pour la technologie et reprennent aussi les termes employés par les vendors.
      À ce stade, cela ressemble à un processus autoréalisateur.
      On dirait un phénomène du même genre que le mème sur la prononciation de GIF.

    • Le hidden state n’est en réalité qu’un mécanisme interne du modèle servant à mieux estimer les probabilités de combinaison des tokens.
      Ce type de raisonnement a déjà échoué chez les positivistes logiques du début du XXe siècle.
      Il y avait l’idée qu’en prédisant très bien les probabilités de combinaison du langage, on pouvait acquérir une forme dense de « connaissance ».
      Mais philosophiquement, il existe beaucoup d’arguments montrant que le langage n’est qu’une expression incomplète de la connaissance.
      Il y a suffisamment d’éléments montrant que la pensée humaine est plus complexe qu’un simple apprentissage et une simple émission de motifs symboliques.
      Des sceptiques comme Hume ont soutenu ce genre de thèse, mais j’ai l’impression que des explications plus solides ont été proposées depuis dans les discussions épistémologiques.

    • Je suis l’auteur du billet original.
      Je me demande ce que tu entends par « hidden state ».
      Dans la plupart des LLM, le contexte lui-même est l’état, et je ne pense pas qu’il y ait un « hidden » state séparé.
      Si je me trompe, je veux bien une explication.

    • Dans les LLM, une séquence de tokens est embeddeé de N^L vers R^{LxD}, passe par l’attention pour rester dans R^{LxD}, puis le vocabulaire est projeté séparément vers R^{LxV} à la fin, ce qui donne une distribution de probabilité pour chaque token.
      Il existe différents schémas de Multi Head dans l’attention, mais on manipule toujours des représentations rattachées aux tokens.
      J’affirme donc qu’il n’existe pas de hidden state indépendant d’un token particulier.
      C’est différent de modèles comme les LSTM, qui ont un hidden state explicitement mis à jour.
      À mon avis, l’essentiel est compréhensible en expliquant simplement le principe selon lequel les probabilités sont calculées à partir des mots précédents.
      Je ne vois pas pourquoi il faudrait forcément des analogies humaines.

  • L’argument central de l’auteur ressemble à la position de Searle : un système fondé sur le calcul, la fonction et les règles syntaxiques ne peut pas reproduire un véritable esprit.
    Beaucoup seront d’accord ou non, mais au fond la réponse dépend des prémisses que l’on adopte, en particulier au sujet de la conscience.
    L’auteur pense qu’il est plus productif de se concentrer sur les systèmes techniques concrets plutôt que sur les analogies humaines, et je suis d’accord jusque-là.
    Indépendamment de cela, il reconnaît aussi qu’un système probabiliste régi par des règles peut malgré tout faire émerger des propriétés inattendues, emergent et mind-like.
    Les personnes ayant une formation en ML ou en mathématiques n’y voient pas des propriétés humaines comme la morale, l’émotion ou la personnalité, mais la plupart des gens ont du mal à aborder cela comme une structure mathématique et perçoivent surtout un comportement « plausiblement » humain en surface.
    Dans une perspective pratique, partir d’attributs humains pour poser des questions reste donc tout à fait pertinent.
    Au final, je pense qu’il faut les deux approches : la vision extrêmement technique du système, et la vision qualitative et subjective fondée sur l’expérience mentale de l’utilisateur.

    • Je pense que l’idée de quelque chose d’emergent et de mind-like paraît surtout naturelle à ceux qui comprennent mal le fonctionnement du système.
      Comme dans la loi de Clarke, « toute technologie suffisamment avancée est indiscernable de la magie », ce seuil dépend pour chacun de son niveau de compréhension technique.
      Chez un public peu alphabétisé technologiquement, on va jusqu’au phénomène des Godbots, où l’on divinise l’IA.
      Articles liés : Spectator - dangers des AI Godbots, papier arXiv, Guardian - la voyante IA en Thaïlande

    • Merci d’apporter une vision aussi bien équilibrée dans cette discussion.
      Sur HN, je suis surpris de voir des gens traiter les LLM de façon trop émotionnelle, ou au contraire affirmer avec force qu’ils n’ont aucun intérêt ni aucune valeur.
      Je ne comprends pas non plus l’attitude consistant à choisir délibérément une opposition sans fondement simplement par réaction à un marketing excessif.

    • Si cela paraît emergent et mind-like, c’est au fond parce que cela imite les schémas de communication humaine mieux qu’aucun système dans l’histoire.
      Cette capacité est extrêmement impressionnante et apporte de nombreuses utilités concrètes susceptibles d’améliorer la qualité de vie, mais l’« intelligence » n’est au final qu’une illusion.
      Tous les acteurs du secteur veulent renforcer délibérément cette illusion, et la raison en est simplement la valeur financière.

    • Je soutiens qu’il ne faut absolument pas faire cela.
      Il n’y a aucune raison d’amplifier une vision erronée qui peut avoir de graves conséquences sur de nombreux autres sujets.
      Les LLM reflètent partiellement, et assez mal, les processus de pensée humains.
      Vouloir donner davantage de sens au phénomène, c’est comme croire que la personne dans le miroir est vivante.
      Si le miroir renvoie une image humaine, ce n’est pas par essence propre, mais parce qu’un humain se tient devant lui.
      Dès qu’un LLM ne reçoit plus en entrée les résidus de la pensée humaine, c’est-à-dire les données, il ne reflète plus rien de similaire à l’humain.

  • J’ai l’impression que l’auteur a tendance à étiqueter toute la conversation comme de « l’humanisation ».
    Il semble bloqué sur le mot « goal », au point de considérer qu’utiliser ce mot suffit déjà à anthropomorphiser.
    Par exemple, un BFS qui évalue tous les scores possibles d’un échiquier et affiche l’arbre de décision complet lorsqu’il trouve un checkmate a lui aussi un « goal ».
    Employer le terme technique « goal » pour parler des objectifs d’un LLM ou d’une AGI n’a, selon moi, rien à voir avec l’anthropomorphisation.

    • Je suis l’auteur du billet original.
      Je n’ai absolument aucun problème avec l’usage de « goal » dans le contexte des algorithmes de RL.
      J’aimerais simplement qu’on comprenne que, dans mon texte, je m’opposais uniquement à l’emploi de « goal » dans le contexte des LLM.
  • À partir du moment où les gens projettent sur cette fonction entraînée des concepts comme la « conscience », l’« éthique », les « valeurs » ou la « morale », je ne peux plus suivre.
    Au fond, ce que nous manipulons, c’est une immense équation récursive, qui ne produit aucun mot si nous ne l’activons pas.
    À ce compte-là, ne faudrait-il pas aussi reconsidérer l’idée même d’anthropomorphiser les humains ?

  • Je ne suis pas d’accord avec l’idée selon laquelle « il est étrange qu’on continue à traiter les LLM comme des humains alors qu’ils ne sont que des fonctions de génération de séquences ».
    Les humains aussi ne sont pas fondamentalement différents, dans le sens où ils suivent eux aussi une certaine liste de fonctions.
    Les LLM sont simplement des systèmes d’approximation de fonctions devenus très grands, tandis que la nature, pendant des centaines de millions d’années, a continuellement modifié les types de fonctions via une évolution où seuls certains survivent à la compétition.
    Certains croient peut-être qu’il existe quelque chose de spécial chez l’humain en dehors des lois mathématiques, mais cela ne dépasse pas une position mystique, voire surnaturelle.
    Si l’on n’adhère pas à cette idée, alors l’expérience humaine peut au fond s’expliquer par des fonctions et des approximations de fonctions.
    Voir aussi : Universal Approximation Theorem sur Wikipédia

    • L’affirmation selon laquelle « crois-tu qu’il existe chez l’humain quelque chose qui dépasse les lois mathématiques » est elle-même polémique.
      Il existe clairement des dimensions de l’expérience humaine, ou de ce qu’on peut exprimer en langage, qui dépassent le cadre explicatif de la physique.
      Par exemple, une personne ne voyant qu’en noir et blanc et n’ayant jamais fait l’expérience du rouge ne pourra jamais, par aucun système descriptif, accéder à l’expérience subjective du rouge.
      Je pense que certains phénomènes désignés par le langage humain restent encore hors du champ d’explication de la physique.

    • L’auteur semble soutenir qu’il existe dans la conscience humaine « quelque chose » qui ne peut pas être expliqué comme une fonction.
      Beaucoup de gens partent de ce type de conviction — religieuse ou philosophique — et, d’expérience, leur demander de mettre cet aspect mental de côté ne sert pas à grand-chose.
      Il est plus pratique d’accepter cette prémisse et de poursuivre la discussion à partir de là.
      Même si l’on admet qu’un LLM n’est qu’une sorte de « chambre chinoise » qui traduit sans comprendre le sens, il continue malgré tout à manifester des comportements qui ressemblent à ceux d’un humain.
      Donc même si les analogies humaines sont techniquement fausses, elles restent plus efficaces dans la pratique pour prédire le comportement du système et l’utiliser correctement.
      À l’inverse, quand on parle des humains, on peut simplement laisser de côté ce qui les distingue d’une fonction.
      On entend dire : « les humains sont radicalement différents des fonctions... on ne peut pas calculer la probabilité qu’un humain génère cette séquence », mais, par exemple, si l’on lance une référence de pop culture donnée, on peut tout à fait prédire qu’une proportion non négligeable d’Américains d’une certaine tranche d’âge enchaînera avec la suite.

    • Je pense qu’on peut seulement aller jusqu’à dire que « le meilleur modèle que nous ayons aujourd’hui pour l’inférence humaine ou pour les processus de pensée analytique, c’est l’algèbre linéaire ».
      Au fond, l’idée que les LLM puissent être plus qu’un « modèle » relève d’une attente quasi dogmatique portée par des intérêts de secteur, de carrière ou de subsistance.
      Pourtant, il n’existe aucun fondement concret montrant pourquoi un modèle en algèbre linéaire modéliserait intégralement la « vie » ou même un aspect complet du vivant.
      S’il est possible d’imaginer un cas façon Gödel du type « chat zombie », je ne vois pas pourquoi il faudrait considérer ce modèle probabiliste sous-jacent comme transcendant.

    • La mention du « théorème d’approximation universelle » est ici interprétée au sens large comme l’idée qu’une lookup table de plus en plus bonne pourrait servir à l’approximation de fonctions.

  • Dans certaines situations, il est très important de se rappeler clairement qu’un LLM est un générateur de mots probabiliste.
    Mais pour les usages du quotidien, le traiter de manière anthropomorphique fonctionne en pratique beaucoup mieux.
    Cette approche agit comme une abstraction utile permettant d’obtenir plus facilement les réponses dont on a besoin.
    Ce n’est pas une analogie parfaite, mais par exemple, menacer un LLM en disant que « quelqu’un va mourir s’il ne produit pas du JSON » est un comportement qu’on n’imaginerait jamais en raisonnant uniquement en termes de simple gradient descent.

  • Les gens ont tendance à attribuer des qualités humaines à tout ce qui les entoure.
    Ils parlent aux objets inanimés comme les bateaux ou les voitures, aux animaux, voire même aux plantes ; c’est instinctif.
    La plupart savent très bien que leur voiture ne les aime pas, mais face à un LLM conversationnel, beaucoup croient réellement à l’existence d’une conscience.
    Contrairement au cerveau humain, les LLM n’« apprennent » ni ne s’« adaptent » pas (du moins pour l’instant) : ils sont entraînés puis deviennent des entités en lecture seule.
    Malgré cela, ils sont conçus délibérément pour imiter une communication humaine.
    C’est pourquoi la projection et l’anthropomorphisation sont inévitables.
    Ce n’est peut-être pas encore de l’AGI, mais il est clair que cela s’inspire de la manière dont les humains apprennent, et rien que cela rend le résultat fascinant.
    À court terme, les LLM se sont imposés comme des outils pratiques bien plus faciles à utiliser grâce à leur interface conversationnelle, conçue précisément pour correspondre à une forme de communication naturelle pour l’être humain.
    Cela permet à pratiquement n’importe qui de les utiliser efficacement sans formation particulière.

    • Je ne suis pas d’accord avec l’idée que « les gens attribuent de l’humanité aux choses » ; c’est une confusion de termes.
      Employer des figures de style de personification pour des objets inanimés et projeter réellement des qualités humaines ou une conscience, c’est différent.
      En pratique, presque personne ne croit qu’une voiture est vivante.
      En revanche, beaucoup pensent qu’un LLM est conscient.
      Voir : anthropomorphism vs personification

    • Dire qu’un LLM n’est pas conscient parce qu’il n’apprend pas ni ne s’adapte comme un cerveau n’est ni une condition suffisante ni une condition nécessaire.
      La conscience n’exige pas forcément l’apprentissage, mais elle peut exiger une perception du passage du temps et une mémoire à court terme.
      Une personne atteinte de démence sévère peut presque ne plus apprendre du tout, tout en gardant une conscience subjective du « ici et maintenant ».
      Autrement dit, un tout petit reste de mémoire à court terme peut suffire à permettre la conscience.
      Inversement, apprendre ne suffit pas à faire émerger une conscience.
      Il existe de nombreux logiciels qui apprennent en temps réel sans posséder la moindre subjectivité.

  • Ma question est la suivante : et si le cerveau humain fonctionnait lui aussi comme un LLM ?
    Le cerveau aussi résulte de changements évolutifs, de mutations et d’un algorithme de récompense évolutif qui a produit une structure particulière.
    Cette structure maximise ensuite la survie et la reproduction par la prédiction et l’action, tandis que des sous-objectifs dérivés — morale, valeurs, conscience, etc. — ont évolué comme des ramifications secondaires jusqu’à devenir très complexes.
    Au fond, avec une puissance de calcul suffisante, ne pourrait-on pas exprimer toute cette structure, ainsi que le monde et le flux du temps, sous forme d’une fonction déterministe transformable ?
    Quand on pense au fait même que la vie est apparue malgré des probabilités qui semblaient quasi impossibles, on peut aussi considérer que tout ce qui nous émerveille aujourd’hui est au fond réductible à un système mathématique.

    • À la question « le cerveau humain pourrait-il être comme un LLM ? », j’aurais envie de te demander si, après chaque conversation, tu oublies tout ce qui vient d’être dit.
      Si, dans tes échanges avec les gens autour de toi, ils doivent te répéter mot pour mot tout ce qu’ils viennent de dire pour que tu comprennes le contexte, je te conseillerais de consulter un spécialiste dès maintenant.
      Tu auras peut-être besoin de revoir Memento (2000), qui traite de l’amnésie.

    • Ce qui est important, c’est qu’on ne doit pas attribuer aux machines des émotions, une morale ou des motivations.
      Elles n’ont rien de tout cela.

    • Je pense qu’il existe tout de même pas mal de similarités avec le cerveau humain.
      Les LLM sont le résultat le plus récent de plus de 80 ans de recherche sur la modélisation computationnelle du cerveau humain.

    • Le point le plus puissant des LLM, c’est qu’ils peuvent échouer sans que cela ne coûte rien.
      Il suffit de reformuler le prompt, de réessayer ou de les réentraîner.
      Un humain, lui, peut mettre sa vie en danger à la moindre erreur.
      Les erreurs d’un LLM n’ont pas de conséquence grave : il suffit de changer la demande.

  • On dit parfois que « c’est à partir du moment où les gens attribuent aux LLM une conscience, une éthique, des valeurs ou une morale que tout devient confus ».
    Dans ce type de débat, il faudrait des exemples concrets pour que la discussion devienne productive, mais en pratique les échanges ne font souvent que se croiser sans se rejoindre.
    Par exemple, quand on entend « le modèle veut X, mais comme il sait que Y est faux, il préfère Z », certains y voient l’attribution d’une conscience ou de valeurs au modèle, tandis que d’autres n’y voient qu’une description métaphorique d’un comportement externe, comme lorsqu’on dit que « l’eau veut descendre ».
    Au final, ce jeu sur les mots dérive vers un dialogue de sourds entre « moi, je parle en termes philosophiques » et « moi, je veux juste parler des sous-marins ».
    C’est une structure qui conduit difficilement à une discussion productive.