Qu’est-ce qu’une chaîne de Markov
- Quand les LLM (grands modèles de langage) sont apparus pour la première fois, on les décrivait comme des chaînes de Markov très intelligentes
- Aujourd’hui, les gens sont plus familiers avec les LLM qu’avec les chaînes de Markov
- On peut considérer une chaîne de Markov comme un LLM très petit, très simple et très naïf
- Une chaîne de Markov prédit le mot suivant à partir du contexte actuel, mais sans prendre en compte la sémantique, la dimensionalité ni les autres mathématiques vectorielles complexes
- Une chaîne de Markov est un modèle statistique primitif
- La fonctionnalité de « suggestion du mot suivant » sur le clavier d’un téléphone utilise généralement des chaînes de Markov
- Les chaînes de Markov coûtent peu à exécuter et peuvent être facilement mises à jour pour s’adapter au style de texte de l’utilisateur
- On pourrait expliquer en détail le fonctionnement des LLM et des chaînes de Markov, mais ici il suffit de savoir que les chaînes de Markov sont moins capables que les LLM pour accomplir des tâches
Qu’est-ce qui est drôle
- L’humour repose sur une surprise qui n’est pas sérieuse
- Les meilleures blagues comportent un « snap » plaisant et significatif
- Le « snap » désigne le choc produit par la surprise
- Moins il y a de surprise, moins c’est drôle
- C’est pourquoi, plus on entend souvent une blague, moins elle fait rire
- L’humour « aléatoire » n’est pas drôle parce que son imprévisibilité est elle-même prévisible
- Écrire une blague consiste à transgresser des schémas
- On peut renforcer le snap par la « réalisation de la scène »
- Employer un langage plus original ou plus descriptif rend la scène plus réaliste
- Les blagues sont diverses et l’humour est subjectif
La prévisibilité des LLM
- Pour prédire une phrase avec succès, il faut beaucoup de contexte
- Les LLM disposent de beaucoup de contexte
- Les LLM trouvent le token suivant le plus probable grâce à de nombreux calculs mathématiques
- Un LLM « meilleur » est plus prévisible
- Les LLM ne sont pas adaptés à l’écriture créative
- Les LLM produisent des résultats moyens
- Pour générer des blagues, un LLM doit produire de la surprise
- Un bon LLM ne sait pas bien le faire
- Les LLM ne sont pas adaptés à l’expression artistique
- Les LLM peuvent passer à côté de concepts intéressants
- Ce cadre pourrait permettre de créer un nouveau modèle de langage
Pourquoi c’est intéressant
- Cela indique quelque chose de plus profond
- Ce n’est pas un débat entre l’âme et la machine
- Cela montre un défaut intrinsèque du modèle
- Les messages de ChatGPT ressemblent à des dissertations de lycée
- C’est une reproduction d’une sortie moyenne
- La personnalité en a été retirée et remplacée par une rigueur académique renforcée
- Le ton est fade et corporate
- On peut facilement identifier les faux avis Amazon
- Les modèles de détection de LLM devront bientôt examiner la personnalité
Le résumé de GN⁺
- Cet article explique les différences entre les chaînes de Markov et les LLM, et explore la nature de l’humour
- Les chaînes de Markov sont des modèles statistiques simples, dont la capacité de prédiction est inférieure à celle des LLM
- L’humour repose sur une surprise non sérieuse, et écrire une blague consiste à transgresser des schémas
- Les LLM sont très prévisibles et ne sont donc pas adaptés à l’écriture créative
- Cet article montre les limites des LLM et suggère la possibilité de nouveaux modèles de langage
1 commentaires
Avis Hacker News
Je suis arrivé à la même conclusion il y a quelques années en travaillant sur un side project
J’ai demandé à Claude 3.5 Sonnet d’écrire 10 courtes blagues sur le thème « les chaînes de Markov sont plus drôles que les LLM »
Ça ne veut pas dire que les chaînes de Markov sont meilleures
À l’université, des amis avaient utilisé un générateur à chaîne de Markov pour la section « rapports de police » du journal étudiant
Je suis mal à l’aise avec l’idée d’utiliser la Bible pour ce genre d’expériences
Comme preuve empirique, /r/subreddit simulator est une parodie de Reddit basée sur Markov
J’ai publié plusieurs fois sur Reddit des « faux XYZ écrits par une IA »
Il y a environ 10 ans, quand j’étais encore à l’école, j’avais créé un bot Twitter basé sur Markov
L’évolution du blog AI weirdness va dans le sens de cette idée
J’ai deux bots sur mon serveur Discord personnel