Modèles de langage de grande taille auto-adaptatifs

(arxiv.org)

3 points par GN⁺ 2025-06-15 | 1 commentaires | Partager sur WhatsApp

Les LLM existants conservent souvent les mêmes poids même lorsqu’ils reçoivent de nouvelles connaissances ou de nouvelles tâches ; SEAL propose donc un framework d’auto-adaptation dans lequel le modèle crée et met à jour lui-même ses données et procédures d’apprentissage
L’unité centrale, le self-edit, reformule l’information, définit les hyperparamètres d’optimisation, et inclut même des appels à des outils d’augmentation de données et de mise à jour basée sur le gradient
SEAL apprend une politique de génération de self-edits plus efficace via une boucle d’apprentissage par renforcement qui utilise les performances aval du modèle mis à jour comme récompense
Dans l’expérience d’intégration de connaissances, après un fine-tuning sur des données synthétiques auto-générées, les performances SQuAD no-passage-in-context sont passées de 33,5 % à 47,0 %, dépassant celles obtenues avec les données synthétiques générées par GPT-4.1
Dans l’apprentissage few-shot sur un sous-ensemble simplifié d’ARC-AGI, le modèle choisit automatiquement l’augmentation de données, le taux d’apprentissage, les epochs et le calcul de loss par type de token, obtenant de meilleurs résultats que l’ICL standard et que le self-editing sans RL

Une méthode pour mettre à jour des LLM statiques par eux-mêmes

Les LLM existants sont puissants mais statiques (static), sans mécanisme pour adapter leurs poids à de nouvelles tâches, connaissances ou exemples
SEAL (Self-Adapting LLMs) est conçu pour permettre au modèle, lorsqu’il reçoit une nouvelle entrée, de modifier lui-même les données et la procédure d’apprentissage afin de s’auto-adapter
L’artefact central est le self-edit
- Il peut reformuler l’information dans un autre format
- Il peut spécifier des hyperparamètres d’optimisation
- Il peut appeler des outils pour l’augmentation de données et les mises à jour basées sur le gradient
Le self-edit conduit à une mise à jour persistante des poids du modèle via un fine-tuning supervisé (SFT)
Le site web et le code sont disponibles sur https://jyopari.github.io/posts/seal

Différences avec les méthodes d’adaptation existantes

Lorsqu’ils reçoivent une nouvelle tâche, les LLM actuels consomment généralement les données de la tâche telles quelles (as-is), via fine-tuning ou apprentissage en contexte (in-context learning)
Les données d’entrée ne sont pas forcément dans un format ni une quantité optimaux pour l’apprentissage, mais les approches existantes ne poussent pas le modèle à développer lui-même une stratégie pour transformer ces données et les assimiler
SEAL ne dépend pas d’un module d’adaptation séparé ni d’un réseau auxiliaire : il paramètre et contrôle le processus d’adaptation à partir des générations du modèle lui-même
L’approche ressemble à celle d’un étudiant humain qui, plutôt que de mémoriser des sources brutes telles quelles, les réinterprète et les restructure sous forme de notes
- Selon les personnes, l’information est assimilée différemment : diagrammes visuels, texte, explications mathématiques, etc.
- SEAL tente d’introduire ce processus de restructuration et de réécriture dans la procédure d’apprentissage des LLM

Apprendre une politique de self-edit par apprentissage par renforcement

SEAL entraîne le LLM, au moyen d’un algorithme d’apprentissage par renforcement, à générer des self-edits efficaces
Chaque itération de l’outer loop d’apprentissage par renforcement suit le déroulé suivant
- Le modèle génère des self-edits candidats
- Une mise à jour des poids est appliquée selon le self-edit
- Le modèle mis à jour est évalué sur une tâche aval
- La politique de génération de self-edits est améliorée grâce à la récompense issue du résultat d’évaluation
Le signal de récompense correspond aux performances aval du modèle mis à jour

Résultats expérimentaux : intégration de connaissances

L’expérience d’intégration de connaissances porte sur l’ajout de nouveaux faits à un LLM
Au lieu de fine-tuner directement sur le passage textuel, le modèle SEAL est fine-tuné sur des données synthétiques qu’il génère
Après l’entraînement par renforcement, les données synthétiques auto-générées par SEAL font passer les performances de question-réponse SQuAD no-passage-in-context de 33,5 % à 47,0 %
Les données auto-générées par SEAL obtiennent de meilleures performances que les données synthétiques créées par GPT-4.1

Résultats expérimentaux : généralisation few-shot ARC-AGI

La deuxième évaluation réalise un apprentissage few-shot sur un sous-ensemble simplifié du benchmark ARC-AGI
Le modèle exploite un ensemble d’outils pour choisir de manière autonome l’augmentation de données synthétiques et les hyperparamètres d’optimisation
Les éléments sélectionnés automatiquement incluent :
- le taux d’apprentissage
- les training epochs
- le calcul sélectif de la loss par type de token
La sélection et la configuration automatiques des outils via SEAL améliorent les performances par rapport à l’apprentissage en contexte (ICL) standard et au self-editing sans RL n’ayant pas appris efficacement l’usage des outils
Les deux expériences montrent que SEAL peut servir de framework pour adapter des modèles de langage à de nouvelles données de façon auto-dirigée

1 commentaires

GN⁺ 2025-06-15

Avis sur Hacker News

L’approche self-edit est astucieuse en ce qu’elle optimise par apprentissage par renforcement la façon dont le modèle restructure l’information pour son propre apprentissage.
L’idée clé est que chaque type de connaissance se prête mieux à certaines représentations, un peu comme les humains ne prennent pas leurs notes de la même manière en maths et en histoire.
Sur les données de GPT-4.1, le résultat d’intégration des connaissances atteint 47 % contre 46,3 % pour la baseline de petit modèle, ce qui laisse penser qu’il ne s’agit pas simplement de plus de données, mais de la découverte d’un meilleur format d’apprentissage.
Cela dit, l’oubli catastrophique n’est toujours pas résolu, et il n’est pas totalement clair non plus que la diversité des données se soit réellement améliorée.
Le coût de calcul, avec 30 à 45 secondes par évaluation de récompense, est trop lourd pour la plupart des usages, mais cela peut se justifier pour le traitement de documents à forte valeur où la préservation optimale est vraiment critique.
La plus grande limite est que cela reste cantonné aux tâches disposant de métriques d’évaluation explicites : pour calculer la récompense, il faut des paires question-réponse correctes ou des cas de test.
Malgré tout, dans des domaines où l’on peut générer des évaluations, comme la documentation technique ou les contenus pédagogiques, cela peut nettement améliorer la façon de traiter les nouvelles informations ; même si l’on n’en est pas encore au stade d’un « agent qui s’auto-améliore en continu », cela ressemble à une étape importante vers des modèles capables d’ajuster leur propre stratégie d’apprentissage.
Depuis le milieu des années 2010, deux amis surdoués en maths qui faisaient du machine learning très tôt parlaient souvent d’algorithmes NEAT/HyperNEAT, qui semblent assez proches.
« NEAT/HyperNEAT » (Neuroevolution of Augmented Topologies) [0]
Je ne suis pas spécialiste du machine learning, mais d’après ce que j’ai compris, NEAT fait évoluer la topologie du réseau, tandis que cet article semble faire évoluer les poids.
Au final, cela ressemble à deux approches cherchant à résoudre le même problème : l’une fait évoluer la structure du réseau, l’autre les poids.
Ces deux amis comptent parmi les personnes les plus intelligentes que j’aie rencontrées, et ils étaient assez convaincus que l’apprentissage par renforcement et les algorithmes évolutionnaires étaient l’avenir du machine learning.
[0] https://en.wikipedia.org/wiki/Neuroevolution_of_augmenting_t...
- Les humains sont incroyables. Ils ont créé un système de calcul imaginaire pour comprendre les neurones, ont découvert que les vrais neurones ne fonctionnaient pas comme ça, mais ont quand même bâti dessus une technologie qui change de paradigme.
  Et ils continuent encore à renforcer cette technologie avec des idées issues de ce système imaginaire.
- Ma ressource d’introduction à NEAT préférée est MarI/O - Machine Learning for Video Games de SethBling.
  https://www.youtube.com/watch?v=qv6UVOQ0F44
- Je suis récemment devenu complètement fasciné par cette idée. Après avoir obtenu un certain succès avec du clonage vocal pour Kokoro au moyen d’un algorithme génétique, je me suis demandé s’il serait possible de faire évoluer l’architecture elle-même.
  L’idée d’une intelligence auto-assemblée est très intéressante, mais je me demande comment la rendre réalisable.
  Vu la façon dont les LLM ont progressé jusqu’ici, ce genre d’approche hybride pourrait bien être la meilleure option.
Anthropic a aussi publié il y a quelques jours un article sur le self finetuning.
https://arxiv.org/html/2506.10139v1
- C’est énorme.
  « Évaluée par le modèle de récompense de niveau production de Claude 3.5 Sonnet, la politique auxiliaire non supervisée a remporté 60 % des comparaisons directes face à une politique entraînée avec un modèle de récompense supervisé par des humains. »
  Autrement dit, les modèles peuvent désormais faire mieux que les humains même pour le post-entraînement de nouveaux modèles.
- Il y a un fil connexe en cours.
  Unsupervised Elicitation of Language Models - https://news.ycombinator.com/item?id=44276041
J’aimerais qu’une personne qui connaît bien le sujet résume où en sont les recherches visant à faire apprendre les LLM « pendant le travail », et quels sont les points de blocage qui empêchent d’en faire quelque chose de réellement déployable.
Par exemple, si l’on veut créer un modèle + agent de code qui apprenne réellement une base de code au fil du temps via un mécanisme comme le fine-tuning continu, je me demande si le problème vient du coût, de l’effondrement du modèle ou d’autres facteurs.
Les grands labos essaient sûrement, mais du point de vue d’un utilisateur de LLM, on n’en entend pas beaucoup parler ; aujourd’hui, l’attention semble plutôt portée sur de meilleurs apprentissages, comme l’apprentissage par renforcement.
Il semble aussi y avoir l’hypothèse que ce qui n’a pas été appris pendant l’entraînement peut être placé dans le contexte au moment où c’est nécessaire.
D’un point de vue naïf, l’incapacité à apprendre de l’expérience après l’entraînement paraît être le plus grand obstacle sur la voie de l’AGI.
- Nous ne savons absolument pas comment faire de l’apprentissage continu.
  Les histoires de coût de calcul, d’effondrement et d’oubli sont justes, mais la seule façon « réellement » possible consiste à entraîner un modèle, recevoir de nouvelles données, réentraîner complètement le modèle sur l’ensemble des anciennes données plus les nouvelles, puis recommencer.
  Et même ainsi, il n’y a aucune garantie sur l’aspect « temps ».
  Le domaine de l’apprentissage continu n’a presque aucune vraie réponse à ce problème, et les solutions sont à bien des égards contradictoires, au point d’être infernales.
  Il faut étendre l’espace de représentation du modèle tout en conservant presque intact l’ancien espace de représentation, ce qui revient en fait à devoir changer sans changer.
  Le plus agaçant, c’est que même de tout petits cerveaux naturels font cela facilement.
  J’ai une théorie longue à expliquer, mais en résumé, l’IA aura probablement besoin, d’une manière ou d’une autre, d’un processus de sommeil ou de repos.
- Je ne suis pas spécialiste, mais je pense que la confidentialité joue, ou devrait jouer, un grand rôle.
  À cause du coût de calcul, tout apprentissage devra sans doute être agrégé plutôt que propre à chaque utilisateur, ce qui augmente fortement le risque de fuite d’informations entre sessions.
  Je suis entièrement d’accord pour dire que trouver une méthode sûre d’apprentissage continu semble être l’un des plus grands obstacles à l’AGI.
- La vraie réponse, c’est que nous ne faisons pas suffisamment confiance à l’évaluation automatique.
  Même si les scores d’évaluation augmentent, il est difficile d’être sûr qu’une version entraînée automatiquement améliore réellement les performances ; pour l’instant, tout le monde regroupe donc les mises à jour et fait une vérification au feeling avant le déploiement.
- Le problème le plus évident est l’alignement.
  On sait déjà que le simple fine-tuning d’un LLM peut faire disparaître l’alignement ; donc toute forme de fine-tuning continu pourrait, en théorie, supprimer l’alignement de la même manière.
- L’obstacle le plus manifeste est l’oubli catastrophique.
À première vue, cela ressemble simplement à un framework qui affine des adaptateurs LoRA puis les fusionne dans le modèle d’origine.
Il utilise PeftModel de la bibliothèque HuggingFace et merge_and_unload pour fusionner l’adaptateur dans le modèle de base, mais je ne vois pas exactement ce qu’il y a de nouveau.
- Ce qui pourrait sembler nouveau, c’est la stabilité de l’approche, et le fait d’éviter les coûts d’alignement ainsi que l’effondrement du modèle.
  J’aimerais voir une boucle complète de l’hyperréseau, où les deux modèles sont continuellement mis à jour avec les LoRA générés, et où l’hyperréseau est lui aussi mis à jour en fonction du nouvel état du modèle.
  Pour appliquer LoRA à l’hyperréseau, il faudrait un méta-hyperréseau, ce qui pourrait en fait permettre un apprentissage continu.
Le passage clé est celui-ci : « Les grands modèles de langage sont puissants mais statiques, et ne disposent pas de mécanisme pour ajuster leurs poids en réponse à de nouvelles tâches ».
Les processus d’entraînement et d’inférence étant complètement séparés, c’est très déroutant pour les personnes habituées aux conceptions traditionnelles de l’intelligence humaine.
Chez l’humain, apprendre quelque chose et appliquer ce savoir au réel fait partie d’un même processus de rétroaction intégré, mais ce n’est pas le cas des LLM.
Nous les entraînons, nous les déployons, puis nous les remplaçons par un nouveau modèle qui a un peu plus « appris ».
Pour un LLM, l’inférence marque la fin de l’apprentissage.
C’est probablement là que se situe le plus grand malentendu autour de l’IA.
Si l’on pense qu’un LLM est en train d’apprendre, il devient facile d’imaginer que l’AGI est imminente.
- Comme l’a montré DeepSeek, on peut ajuster un LLM avec de l’apprentissage par renforcement.
- Et si, après avoir observé si l’utilisateur réagit positivement ou négativement à une sortie, on entraînait le LLM avec l’entrée reçue par le modèle et la sortie qu’il a générée ?
Site web avec du code et des exemples : https://jyopari.github.io/posts/seal
Dans ce domaine, il semble que bien oublier devienne rapidement un enjeu plus important que « bien apprendre ».
Il y a de grands progrès pour faire en sorte qu’un modèle s’enseigne lui-même de nouveaux faits, mais l’état de l’art pour supprimer les informations les moins pertinentes, une fois qu’on lui donne de nouvelles connaissances et une capacité finie, est beaucoup plus en retard.
La majeure partie du cerveau humain sait très bien « bien oublier » ; je me demande comment cela fonctionne.
- Je ne suis pas vraiment convaincu que les humains soient bons pour oublier correctement.
  Honnêtement, je ne suis même pas sûr que le cerveau humain soit « exceptionnellement performant » dans beaucoup de choses que nous faisons.
  Sa capacité de mémoire est tellement grande que la plupart de l’oubli me semble moins relever de la libération d’espace pour de nouvelles informations que du fait que le cerveau sait correctement que de mauvaises informations passées gênent de nouveaux apprentissages.
- À ma connaissance, il y a eu très peu de progrès pour identifier, dans les réseaux de neurones artificiels, quels poids sont responsables de quels résultats et dans quelle mesure.
  On ne peut donc pas supprimer les informations qu’un utilisateur a signalées comme fausses, inexactes ou indésirables.
  À l’inverse, l’esprit humain fait cela facilement.
  Il se souvient qu’une chose a été classée comme fausse, inutile ou non pertinente, cesse de la faire, et avec le temps peut même oublier ce chemin moins emprunté lui-même.
  Du moins, il n’existe pas de mécanisme évident de ce genre dans les réseaux de neurones artificiels.
- L’apprentissage est fortement lié à la répétition espacée.
  On l’associe généralement à des outils d’apprentissage comme Anki, mais le monde réel est rempli de choses que l’on rencontre à une certaine fréquence.
  Le cycle du jour et de la nuit, les saisons, les lieux que l’on visite, les personnes que l’on rencontre : pratiquement tout fonctionne ainsi.
  Je me demande s’il pourrait exister quelque chose comme l’inverse de la répétition espacée.
- J’ai vu une étude intéressante : les LLM peuvent aussi « cacher » des données internes.
  Ils ne les oublient pas simplement ; si on continue à les entraîner, ces informations peuvent réapparaître plus tard.
  Donc, lorsqu’on entraîne un modèle, il faut examiner toute la mémoire, et pas seulement un petit sous-ensemble.
- Une sorte de stratégie de type « moins récemment utilisé » ?
  Je suis en train d’essayer de le vérifier dans ma tête :D
  C’est pour ce genre de choses que j’aime ce domaine de l’informatique.
Le passage selon lequel « Villalobos et al. [75] prédisent que les LLM de pointe auront été entraînés sur l’ensemble des textes générés par des humains publiquement disponibles d’ici 2028 » est marquant.
L’article estime qu’à cause de la barrière des données à venir, il faudra adopter l’augmentation par données synthétiques, et qu’une fois les corpus à l’échelle du web épuisés, les progrès dépendront de la capacité des modèles à générer eux-mêmes des signaux d’apprentissage utiles.
L’étape naturelle suivante consiste à méta-entraîner un modèle SEAL dédié à la génération de données synthétiques afin de créer de nouveaux corpus de préentraînement, permettant aux futurs modèles d’améliorer leur scalabilité et leur efficacité en données sans dépendre de textes humains supplémentaires.
2028, c’est pratiquement demain, et c’est une observation intéressante.
- Ce n’est qu’une théorie.
  Un seul cerveau humain est bien plus complexe que l’ensemble du web en nombre de nœuds et de connexions.
  Nous ne comprenons même pas assez le cerveau pour expliquer comment la pensée se forme.
  Nous ne comprenons pas non plus entièrement le processus par lequel le cerveau produit une sortie avant de l’envoyer sur le web.
  Prédire qu’après avoir épuisé l’échelle du web, les modèles pourront produire eux-mêmes des données d’apprentissage utiles n’est qu’une spéculation.
  Ces données d’apprentissage pourraient ne jamais atteindre la qualité de la pensée humaine, et se contenter de ruminer sans faire progresser ni l’apprentissage ni la qualité des modèles.
  Appeler cela une « observation » est un peu optimiste.
- C’est presque déjà l’état actuel des choses.
  Les LLM de pointe ont déjà été entraînés sur l’ensemble des textes générés par des humains publiquement disponibles, et ils sont déjà largement entraînés sur des données synthétiques pour améliorer des tâches vérifiables comme le code.

Modèles de langage de grande taille auto-adaptatifs

Une méthode pour mettre à jour des LLM statiques par eux-mêmes

Différences avec les méthodes d’adaptation existantes

Apprendre une politique de self-edit par apprentissage par renforcement

Résultats expérimentaux : intégration de connaissances

Résultats expérimentaux : généralisation few-shot ARC-AGI

À lire aussi

1 commentaires

Avis sur Hacker News