Andrej Karpathy : les LLM ont besoin d’un « apprentissage du prompt système »

xguru · 2025-05-13T09:03:46+09:00

Il affirme que les LLM ont besoin d’un troisième paradigme d’apprentissage, au-delà du préentraînement (pretraining) et du fine-tuning, à savoir le « System Prompt Learning » Le préentraînement apprend les connaissances, tandis que le fine-tuning apprend des comportements habituels ; dans les deux cas, cela implique une modification des paramètres du modèle En revanche, l’apprentissage humain ressemble davantage à une évolution du prompt système, sous la forme « faire face à une situation problématique → l’analyser puis en déduire une stratégie → s’en souvenir explicitement pour la suite » Exemple : cela ressemble à une auto-note du type « si je suis confronté à ce genre de problème, je devrais essayer cette approche / cette solution » Contrairement à la mémoire (memory) du contexte utilisateur au sens habituel, il s’agit davantage de stocker explicitement des stratégies générales de résolution de problèmes et des procédures de raisonnement Les humains mémorisent consciemment ou consignent ce type de stratégie, mais les LLM ressemblent encore au protagoniste de Memento dépourvu d’un tel scratchpad Cet apprentissage fondé sur les stratégies pourrait constituer une voie de feedback bien plus abstraite et plus efficace en données que l’apprentissage par renforcement (RL) basé sur des signaux de récompense Le prompt système de Claude divulgué récemment comporte environ 17 00 mots et décrit en détail non seulement des préférences comportementales, mais aussi des stratégies générales de résolution de problèmes Exemple : lorsqu’on demande de compter des mots, Claude ne répond pas immédiatement ; il réfléchit étape par étape, numérote chaque mot / lettre / caractère, puis répond après avoir suivi une procédure de comptage explicite Ce type de connaissance n’a pas vocation à être immédiatement, ni exclusivement, internalisé dans les poids, et ne devrait pas non plus être attribué manuellement, ligne par ligne, par des humains via un prompt système À la place, cela deviendrait possible via une nouvelle forme d’apprentissage, le System Prompt Learning, dont la configuration ressemble à celle du RL, mais dont le mode d’apprentissage se rapproche davantage d’une édition (edit) textuelle que d’une descente de gradient Une part importante du prompt système des LLM pourrait être rédigée via le System Prompt Learning ; ce serait comme si le LLM écrivait lui-même un livre sur la manière de résoudre les problèmes Cette approche, où le prompt est édité / mis à jour par le LLM lui-même, pourrait devenir un nouveau paradigme d’apprentissage puissant Cela dit, plusieurs défis restent à résoudre : Comment fonctionnerait cette édition textuelle ? Le modèle peut-il, ou doit-il, apprendre ce système d’édition lui-même ? Quel mécanisme faudrait-il pour, comme chez l’humain, transférer progressivement les connaissances stratégiques explicites vers des habitudes / poids internalisés ?

(x.com/karpathy)

22 points par xguru 2025-05-13 | 1 commentaires | Partager sur WhatsApp

Il affirme que les LLM ont besoin d’un troisième paradigme d’apprentissage, au-delà du préentraînement (pretraining) et du fine-tuning, à savoir le « System Prompt Learning »
Le préentraînement apprend les connaissances, tandis que le fine-tuning apprend des comportements habituels ; dans les deux cas, cela implique une modification des paramètres du modèle
En revanche, l’apprentissage humain ressemble davantage à une évolution du prompt système, sous la forme « faire face à une situation problématique → l’analyser puis en déduire une stratégie → s’en souvenir explicitement pour la suite »
- Exemple : cela ressemble à une auto-note du type « si je suis confronté à ce genre de problème, je devrais essayer cette approche / cette solution »
Contrairement à la mémoire (memory) du contexte utilisateur au sens habituel, il s’agit davantage de stocker explicitement des stratégies générales de résolution de problèmes et des procédures de raisonnement
Les humains mémorisent consciemment ou consignent ce type de stratégie, mais les LLM ressemblent encore au protagoniste de Memento dépourvu d’un tel scratchpad
Cet apprentissage fondé sur les stratégies pourrait constituer une voie de feedback bien plus abstraite et plus efficace en données que l’apprentissage par renforcement (RL) basé sur des signaux de récompense
Le prompt système de Claude divulgué récemment comporte environ 17�00 mots et décrit en détail non seulement des préférences comportementales, mais aussi des stratégies générales de résolution de problèmes

Exemple : lorsqu’on demande de compter des mots, Claude ne répond pas immédiatement ; il réfléchit étape par étape,
numérote chaque mot / lettre / caractère, puis répond après avoir suivi une procédure de comptage explicite
Ce type de connaissance n’a pas vocation à être immédiatement, ni exclusivement, internalisé dans les poids, et ne devrait pas non plus être attribué manuellement, ligne par ligne, par des humains via un prompt système
À la place, cela deviendrait possible via une nouvelle forme d’apprentissage, le System Prompt Learning, dont la configuration ressemble à celle du RL, mais dont
le mode d’apprentissage se rapproche davantage d’une édition (edit) textuelle que d’une descente de gradient
Une part importante du prompt système des LLM pourrait être rédigée via le System Prompt Learning ; ce serait comme si le LLM écrivait lui-même un livre sur la manière de résoudre les problèmes
Cette approche, où le prompt est édité / mis à jour par le LLM lui-même, pourrait devenir un nouveau paradigme d’apprentissage puissant
- Cela dit, plusieurs défis restent à résoudre :
  - Comment fonctionnerait cette édition textuelle ?
  - Le modèle peut-il, ou doit-il, apprendre ce système d’édition lui-même ?
  - Quel mécanisme faudrait-il pour, comme chez l’humain, transférer progressivement les connaissances stratégiques explicites vers des habitudes / poids internalisés ?

1 commentaires

parkindani 2025-05-13

Si le LLM lui-même peut modifier le système de prompt, il faudrait aussi que les humains définissent les règles de cette politique ; au final, il ne restera peut-être plus que quelque chose comme les trois lois de la robotique.

Andrej Karpathy : les LLM ont besoin d’un « apprentissage du prompt système »

À lire aussi

1 commentaires