5 points par GN⁺ 2024-08-19 | 1 commentaires | Partager sur WhatsApp

Qu’est-ce qu’une chaîne de Markov

  • Quand les LLM (grands modèles de langage) sont apparus pour la première fois, on les décrivait comme des chaînes de Markov très intelligentes
  • Aujourd’hui, les gens sont plus familiers avec les LLM qu’avec les chaînes de Markov
  • On peut considérer une chaîne de Markov comme un LLM très petit, très simple et très naïf
  • Une chaîne de Markov prédit le mot suivant à partir du contexte actuel, mais sans prendre en compte la sémantique, la dimensionalité ni les autres mathématiques vectorielles complexes
  • Une chaîne de Markov est un modèle statistique primitif
  • La fonctionnalité de « suggestion du mot suivant » sur le clavier d’un téléphone utilise généralement des chaînes de Markov
  • Les chaînes de Markov coûtent peu à exécuter et peuvent être facilement mises à jour pour s’adapter au style de texte de l’utilisateur
  • On pourrait expliquer en détail le fonctionnement des LLM et des chaînes de Markov, mais ici il suffit de savoir que les chaînes de Markov sont moins capables que les LLM pour accomplir des tâches

Qu’est-ce qui est drôle

  • L’humour repose sur une surprise qui n’est pas sérieuse
  • Les meilleures blagues comportent un « snap » plaisant et significatif
  • Le « snap » désigne le choc produit par la surprise
  • Moins il y a de surprise, moins c’est drôle
  • C’est pourquoi, plus on entend souvent une blague, moins elle fait rire
  • L’humour « aléatoire » n’est pas drôle parce que son imprévisibilité est elle-même prévisible
  • Écrire une blague consiste à transgresser des schémas
  • On peut renforcer le snap par la « réalisation de la scène »
  • Employer un langage plus original ou plus descriptif rend la scène plus réaliste
  • Les blagues sont diverses et l’humour est subjectif

La prévisibilité des LLM

  • Pour prédire une phrase avec succès, il faut beaucoup de contexte
  • Les LLM disposent de beaucoup de contexte
  • Les LLM trouvent le token suivant le plus probable grâce à de nombreux calculs mathématiques
  • Un LLM « meilleur » est plus prévisible
  • Les LLM ne sont pas adaptés à l’écriture créative
  • Les LLM produisent des résultats moyens
  • Pour générer des blagues, un LLM doit produire de la surprise
  • Un bon LLM ne sait pas bien le faire
  • Les LLM ne sont pas adaptés à l’expression artistique
  • Les LLM peuvent passer à côté de concepts intéressants
  • Ce cadre pourrait permettre de créer un nouveau modèle de langage

Pourquoi c’est intéressant

  • Cela indique quelque chose de plus profond
  • Ce n’est pas un débat entre l’âme et la machine
  • Cela montre un défaut intrinsèque du modèle
  • Les messages de ChatGPT ressemblent à des dissertations de lycée
  • C’est une reproduction d’une sortie moyenne
  • La personnalité en a été retirée et remplacée par une rigueur académique renforcée
  • Le ton est fade et corporate
  • On peut facilement identifier les faux avis Amazon
  • Les modèles de détection de LLM devront bientôt examiner la personnalité

Le résumé de GN⁺

  • Cet article explique les différences entre les chaînes de Markov et les LLM, et explore la nature de l’humour
  • Les chaînes de Markov sont des modèles statistiques simples, dont la capacité de prédiction est inférieure à celle des LLM
  • L’humour repose sur une surprise non sérieuse, et écrire une blague consiste à transgresser des schémas
  • Les LLM sont très prévisibles et ne sont donc pas adaptés à l’écriture créative
  • Cet article montre les limites des LLM et suggère la possibilité de nouveaux modèles de langage

1 commentaires

 
GN⁺ 2024-08-19
Avis Hacker News
  • Je suis arrivé à la même conclusion il y a quelques années en travaillant sur un side project

    • J’avais créé un site qui générait des billets de blog AWS
    • J’avais entraîné un générateur à chaîne de Markov sur des billets d’annonce AWS
    • J’avais copié le HTML et le CSS, puis assemblé le tout avec Python et JS
    • Le résultat était assez amusant
    • J’ai essayé de le faire évoluer avec GPT, mais c’était moins drôle
    • Les LLM modernes sont trop réalistes, donc c’est moins amusant
    • L’humour des premiers générateurs de Markov venait de leur absurdité
    • Les LLM modernes se trompent parfois, mais ils ne sont pas absurdes
  • J’ai demandé à Claude 3.5 Sonnet d’écrire 10 courtes blagues sur le thème « les chaînes de Markov sont plus drôles que les LLM »

    • Pourquoi la chaîne de Markov a-t-elle traversé la route ? Pour aller de l’autre côté de l’imprévisibilité
    • Quand un LLM et une chaîne de Markov entrent dans un bar, le LLM commande une boisson statistiquement plausible et la chaîne de Markov commande un abat-jour en fromage
    • Quand une chaîne de Markov fait une blague de papa, on appelle ça « Mark-ov Twain »
    • Le LLM passe 20 minutes à expliquer la manière optimale de changer une ampoule
    • La chaîne de Markov dit « Markov chain reaction of nonsensical hilarity »
    • Quand un LLM, une chaîne de Markov et GPT-4 entrent dans un bar, GPT-4 s’en va, le LLM discute de questions d’éthique et la chaîne de Markov commande un vélo en spaghetti
    • Le film préféré du LLM, c’est « Predictable and Furious 17: The Safest Driving Yet »
    • La chaîne de Markov raconte l’histoire d’une princesse vivant dans un château en bananes et d’un royaume de grille-pains conscients
    • La chaîne de Markov dit au LLM : « Ta mère est un boulier et ton père sent le silicium »
    • La chaîne de Markov n’est pas un bon conseiller parce qu’elle recommande de « transformer ses émotions en bananes et d’en faire un chapeau »
  • Ça ne veut pas dire que les chaînes de Markov sont meilleures

    • Un modèle entraîné pour faire de la prédiction ne devrait pas être si différent de notre moteur interne de prédiction
    • Le problème, c’est qu’on s’approche de l’uncanny valley du texte
  • À l’université, des amis avaient utilisé un générateur à chaîne de Markov pour la section « rapports de police » du journal étudiant

    • Les 10 % de résultats les plus absurdes étaient les plus drôles
    • Les LLM modernes évitent ce genre d’absurdité parce qu’ils essaient de préserver un haut niveau de cohérence sémantique
  • Je suis mal à l’aise avec l’idée d’utiliser la Bible pour ce genre d’expériences

    • C’est comme utiliser l’image de la crucifixion de Jésus dans un modèle d’édition d’images par IA
  • Comme preuve empirique, /r/subreddit simulator est une parodie de Reddit basée sur Markov

    • /r/SubSimulatorGPT2 en est la version basée sur un LLM
    • La version Markov recevait plus d’upvotes et était plus drôle
  • J’ai publié plusieurs fois sur Reddit des « faux XYZ écrits par une IA »

    • Le modèle qui obtenait les meilleures réactions était GPT-2
    • Les chaînes de Markov ne restent pas intéressantes au-delà d’une ou deux phrases
    • Les modèles postérieurs à GPT-3 sont trop propres et ennuyeux
    • GPT-2 est plus drôle parce qu’il respecte globalement la grammaire et garde une idée cohérente, tout en manquant de connaissances sur des sujets précis
  • Il y a environ 10 ans, quand j’étais encore à l’école, j’avais créé un bot Twitter basé sur Markov

    • Je l’avais entraîné sur les mails LKML de Linus Torvalds et des citations de la Bible du roi Jacques attribuées à Jésus
    • Les deux jeux d’entraînement se recoupaient si peu que j’ai dû ajouter de l’hystérésis
  • L’évolution du blog AI weirdness va dans le sens de cette idée

    • Les premiers LLM, en particulier les versions antérieures à GPT-3, étaient plus drôles
    • Par exemple, les noms de céréales générés par la version Ada de GPT étaient plus amusants que ceux de la version Da Vinci
  • J’ai deux bots sur mon serveur Discord personnel

    • L’un est un bot basique à chaîne de Markov entraîné sur tout l’historique du chat
    • L’autre est un vrai bot LLM
    • Le bot à chaîne de Markov est toujours plus drôle