3 points par GN⁺ 2025-06-15 | 1 commentaires | Partager sur WhatsApp
  • Les grands modèles de langage (LLM) existants manquent de capacité d’adaptation immédiate à de nouvelles tâches ou connaissances
  • Le nouveau framework SEAL permet au LLM de générer lui-même ses données de fine-tuning et ses consignes de mise à jour, lui conférant une capacité d’auto-adaptation
  • Ce processus inclut la génération de self-edit, l’exécution d’instructions, ainsi qu’une amélioration continue des performances via une boucle d’apprentissage par renforcement (RL)
  • SEAL démontre de meilleures performances que les méthodes existantes dans des expériences d’intégration de nouvelles connaissances et de généralisation few-shot
  • Cette étude présente une avancée prometteuse vers la réalisation de LLM dotés de capacités d’adaptation auto-instructive

Vue d’ensemble

  • Les grands modèles de langage (LLM) affichent de fortes performances, mais ne disposent pas de mécanisme permettant d’ajuster dynamiquement leurs propres poids en fonction de nouvelles tâches, informations ou exemples
  • Cet article présente le framework Self-Adapting LLM (SEAL), qui permet au LLM de générer lui-même les données nécessaires à son fine-tuning et de produire les consignes de mise à jour
  • Lorsqu’il reçoit une nouvelle entrée, SEAL génère des self-edit par lesquels le modèle peut restructurer l’information de différentes façons, spécifier des hyperparamètres d’optimisation, ou encore appeler des outils pour l’augmentation de données et les mises à jour fondées sur les gradients
  • Ces self-edit conduisent, via un processus de fine-tuning supervisé (SFT), à des mises à jour permanentes des poids du modèle, garantissant une capacité d’adaptation continue
  • Pour générer des self-edit efficaces, le framework utilise une boucle d’apprentissage par renforcement qui prend comme signal de récompense la performance downstream après la mise à jour du modèle

Analogie avec l’apprentissage humain

  • L’approche s’inspire de la manière dont un étudiant, en préparant un examen, réécrit à sa façon dans ses notes les informations tirées des cours, des manuels ou d’Internet
  • Chaque personne réorganise l’information différemment : certains la résument sous forme de schémas, d’autres en texte, d’autres encore en formules
  • Cela reflète le fait que réorganiser ou enrichir soi-même des connaissances externes pour les rendre plus faciles à comprendre est une caractéristique générale de l’apprentissage humain
  • Les LLM existants, lorsqu’une nouvelle tâche leur est donnée, se contentent généralement de faire du fine-tuning sur le dataset fourni tel quel ou de l’apprentissage in-context
  • Mais cette approche présente des limites lorsque le format ou la quantité de données ne sont pas optimisés pour l’apprentissage

SEAL : proposition d’un framework auto-adaptatif

  • SEAL est entraîné avec un algorithme d’apprentissage par renforcement afin que le LLM génère lui-même, en langage naturel, ses données d’entraînement et ses consignes de fine-tuning
  • Ici, un self-edit prend la forme d’une instruction qui spécifie les données et, éventuellement, des hyperparamètres d’optimisation
  • SEAL se distingue par le fait que, sans module supplémentaire ni réseau auxiliaire, il contrôle directement son propre processus d’adaptation uniquement via les capacités de génération en langage naturel du modèle

Fonctionnement de SEAL

  • À chaque itération de la boucle externe d’apprentissage par renforcement (RL), le modèle génère des self-edit candidats
  • Les self-edit générés sont ensuite appliqués pour mettre à jour les poids
  • La performance du modèle est ensuite évaluée sur des tâches downstream, ce qui permet d’obtenir un signal de récompense à partir des résultats
  • Ce signal de récompense est utilisé pour améliorer de façon itérative la politique de génération des self-edit

Expériences et résultats

  • Sur la tâche d’intégration de connaissances, SEAL effectue le fine-tuning à l’aide de données synthétiques générées directement par le modèle
    • Sur une version de SQuAD sans passage dans le contexte, la performance en question-réponse passe de 33,5 % avant l’entraînement RL à 47,0 % après, soit une nette amélioration
    • Les données générées par SEAL montrent même de meilleures performances que des données synthétiques créées par GPT-4.1
  • Dans les expériences de few-shot learning, une version simplifiée du benchmark ARC-AGI est utilisée, et SEAL sélectionne lui-même les données augmentées ainsi que les hyperparamètres d’optimisation
    • Il choisit automatiquement diverses combinaisons d’outils, notamment le taux d’apprentissage, le nombre d’époques et le calcul sélectif de la perte selon les types de tokens
    • L’utilisation de SEAL avec apprentissage par renforcement améliore les performances, et se montre plus efficace qu’un simple apprentissage in-context ou qu’un usage d’outils sans RL

Conclusion

  • Le framework SEAL démontre expérimentalement qu’une auto-adaptation des LLM via des données et des consignes auto-générées est possible
  • Cette approche constitue une avancée importante pour le développement de futurs modèles de langage offrant davantage d’efficacité des données, d’adaptabilité et de généralité

1 commentaires

 
GN⁺ 2025-06-15
Avis Hacker News
  • Quand deux amis génies en maths se sont lancés très tôt dans le ML, au milieu des années 2010, ils me parlaient souvent d’un algorithme appelé NEAT/HyperNEAT (Neuroevolution of Augmented Topologies) [lien Wikipédia sur NEAT]. Je ne suis pas spécialiste du ML, donc je ne suis pas certain des détails, mais je comprends la différence ainsi : NEAT fait évoluer la topologie du réseau, tandis que cet article fait évoluer les poids. Au fond, j’y vois deux approches différentes du même problème : modifier la structure du réseau ou modifier les poids. Ces deux amis semblaient convaincus que l’avenir de l’IA se trouvait dans le RL (apprentissage par renforcement) et les algorithmes évolutionnaires.

    • J’ai une vidéo d’introduction à NEAT que j’adore : SethBling, MarI/O - Machine Learning for Video Games [lien YouTube]

    • Je trouve l’être humain remarquable. On crée des systèmes de calcul virtuels pour essayer de comprendre les neurones, puis on découvre que le réel ne fonctionne pas ainsi ; malgré cela, on reprend des idées de ces systèmes imaginaires pour fabriquer des technologies révolutionnaires. Et on continue encore aujourd’hui à progresser en s’inspirant de ces systèmes fictifs.

    • Ces derniers temps, je me suis complètement passionné pour ce concept de NEAT/évolution. Après avoir obtenu un certain succès avec un algorithme génétique sur un projet de clonage de voix Kokoro, je me suis demandé s’il serait possible de faire évoluer la structure même du réseau pour obtenir une « intelligence qui s’assemble elle-même ». Je me demande à quoi cela devrait ressembler pour devenir réellement faisable, mais vu la manière dont les LLM ont émergé, je me dis qu’une approche hybride pourrait être une alternative réaliste.

  • Je trouve très ingénieuse l’approche de « self-edit » qui utilise le RL pour que le modèle restructure lui-même l’information afin d’améliorer l’efficacité de l’apprentissage. L’idée centrale est que différentes formes de représentation sont plus efficaces pour différents types de connaissances (comme le fait qu’on ne prend pas des notes de la même façon pour les maths et pour l’histoire). Il y a deux observations importantes. Premièrement, le résultat de l’intégration des connaissances (47 % contre 46,3 %, sur des données GPT-4.1) montre que le modèle n’a pas seulement reçu plus de données : il a réellement trouvé un meilleur format d’apprentissage. Le problème du catastrophic forgetting n’est toujours pas résolu, et on ne voit pas clairement non plus dans quelle mesure la diversité des données s’améliore réellement. Deuxièmement, une seule évaluation de récompense prend de 30 à 45 secondes, ce qui la rend peu praticable pour la plupart des usages réels. En revanche, pour des traitements de documents vraiment critiques, où une conservation optimale de l’information est nécessaire, cela peut valoir l’investissement. La grande limite, c’est que cette méthode reste cantonnée à des tâches disposant de métriques d’évaluation claires (il faut des Q&R de référence ou des cas de test pour calculer la récompense). Malgré cela, dans des domaines comme la documentation technique ou les supports pédagogiques, où l’évaluation peut être automatisée, cela pourrait ouvrir un paradigme entièrement nouveau de traitement des connaissances. On n’est pas encore arrivé à un agent totalement auto-améliorant, mais cela ressemble à une avancée importante : un modèle qui améliore lui-même sa façon d’apprendre.

  • Anthropic a également publié il y a quelques jours une recherche similaire sur le self finetuning [article arXiv]

    • La discussion connexe est en cours [fil HN lié]

    • Je trouve ça vraiment impressionnant. Selon un RM de niveau production pour Claude 3.5 Sonnet, une politique d’assistant non supervisée est évaluée comme battant de 60 % une politique entraînée avec un RM supervisé par des humains dans des comparaisons par paires. J’ai l’impression qu’on est entrés dans une phase où les modèles peuvent désormais surpasser des performances antérieures entre eux, sans guidage humain direct.

  • Les grands modèles de langage (LLM) sont puissants, mais leur problème est qu’ils n’ont aucun mécanisme pour adapter leurs poids lorsqu’on leur confie une nouvelle tâche. Chez l’humain, apprendre et appliquer ce qu’on a appris font partie d’une même boucle de rétroaction, alors que chez les LLM, l’entraînement et l’inférence sont complètement séparés. On déploie un nouveau modèle qui a « appris » un peu plus, puis on jette le précédent. Avec les LLM, l’inférence marque la fin de l’apprentissage. Je pense que c’est le malentendu le plus répandu à propos de l’IA. Si l’on s’imagine que les LLM apprennent, on tombe facilement dans l’illusion que l’AGI arrivera très vite.

    • Comme le montre le cas de Deepseek, on peut utiliser l’apprentissage par renforcement pour affiner les performances d’un LLM.

    • Et si l’on pouvait réentraîner un LLM en fonction des réactions des utilisateurs (positives/négatives) ? Je me demande s’il ne serait pas possible de le faire entrer dans une boucle de rétroaction à partir des données d’entrée et de sortie.

  • J’aimerais vraiment qu’un expert qui connaît très bien l’état de la recherche et ses limites sur le fait de faire apprendre un LLM « sur le terrain » en continu — par exemple des agents orientés code qui apprennent une base de code au fil du temps — fasse un bon récapitulatif (coût ? effondrement du modèle ? autres ?). Les grands labos essaient sûrement ce genre de choses, mais du point de vue d’un utilisateur ordinaire, on entend rarement parler de ce sujet. En ce moment, on dirait que tout le monde se concentre surtout sur de meilleures méthodes d’entraînement basées sur le RL, et que ce qui n’a pas été appris pendant l’entraînement est ensuite forcé dans le contexte. Pourtant, j’ai l’impression que l’absence d’auto-apprentissage expérientiel en temps réel est précisément ce qui sépare de l’AGI.

    • À l’heure actuelle, il n’existe pas de solution vraiment décisive pour l’apprentissage continu (continual learning). Il est juste de dire que les raisons invoquées sont multiples : ressources de calcul, effondrement du modèle, oubli, etc. La seule méthode reste : 1) entraîner le modèle 2) ajouter de nouvelles données 3) le réentraîner entièrement 4) répéter. Et on n’a pas vraiment d’autre choix. Même en termes de temps, aucune approche ne garantit quoi que ce soit complètement. Dans le domaine du CL, il n’y a tout simplement pas encore de « vraie » réponse. Il faudrait élargir l’espace de représentation du modèle tout en préservant autant que possible l’espace de représentation précédent, et exiger les deux à la fois est presque impossible. Les êtres vivants dotés d’un système nerveux semblent y parvenir très facilement, alors que pour l’IA cette tâche est extrêmement difficile. À mon avis, l’intelligence artificielle aura peut-être besoin de concepts comme le « sommeil » ou le « repos ».

    • Je ne suis pas expert, mais je pense aussi que les questions de confidentialité jouent un rôle important. Pour faire de l’apprentissage continu, il faudrait forcément travailler sur des données agrégées plutôt qu’au niveau individuel des utilisateurs, à cause du trafic ou des coûts ; mais cela introduit alors un risque de fuite d’informations entre sessions. Je suis tout à fait d’accord avec l’idée que trouver un moyen de faire de l’apprentissage continu en toute sécurité est l’un des plus grands obstacles vers l’AGI.

    • Le problème de fiabilité est également majeur. Comme on n’a pas vraiment confiance dans l’évaluation automatique, on ne déploie pas immédiatement en production une version de continuous training automatisée avant d’avoir vérifié que les performances se sont réellement améliorées. En pratique, on regroupe plusieurs mises à jour, puis on ne les applique réellement qu’après une validation finale, une sorte de « vibe check ».

    • Le problème le plus clair me semble être que le fine-tuning continu des LLM peut facilement perturber leur alignment. En conséquence, ni la stabilité ni la sûreté ne sont garanties.

    • L’obstacle le plus évident est, selon moi, le problème du catastrophic forgetting.

  • Mon CPU est un neural-net processor, un learning computer. Mais quand Skynet m’envoie en mission solo, il met l’interrupteur en lecture seule. Ça m’a fait penser à cette réplique de Terminator.

  • Présentation du site officiel avec code et exemples [page du projet SEAL]

  • Selon les projections de Villalobos et al. [75], d’ici 2028, les frontier LLM auront atteint la limite de tous les textes rédigés par des humains disponibles publiquement. Cette « data wall » pousserait à recourir davantage à la synthetic data augmentation. Une fois les corpus à l’échelle du web épuisés, les progrès dépendront au fond de la capacité des modèles à générer eux-mêmes de nouveaux signaux d’entraînement plus efficaces. En résumé, l’idée de SEAL est de méta-entraîner un modèle générateur de données synthétiques afin qu’il produise des données fraîches pour le préentraînement et améliore l’efficacité des futurs modèles. Comme 2028 est tout proche, je trouve cela très éclairant.

  • J’ai l’impression que « oublier correctement » devient désormais un problème plus important que « bien apprendre ». Il y a eu de grands progrès dans l’acquisition rapide de nouveaux faits, mais les techniques permettant d’éliminer efficacement les informations moins importantes dans un espace de capacité fini sont encore très en retard. Le « bon oubli » est quelque chose que le cerveau humain semble très bien faire, et je me demande comment cela fonctionne réellement.

    • Je ne suis pas d’accord avec l’idée que l’humain sache si bien « oublier correctement ». En réalité, je ne pense pas que l’être humain dispose d’un système si extraordinaire. Le cerveau a une capacité tellement vaste qu’au lieu d’effacer volontairement de l’espace pour de nouvelles informations, il semble surtout oublier lorsque de mauvaises informations existantes gênent de nouveaux apprentissages.

    • Je pense que l’apprentissage et la spaced repetition sont très étroitement liés. Cela évoque bien sûr des outils d’apprentissage comme Anki, mais dans le monde réel, beaucoup de phénomènes naturels que nous rencontrons à intervalles réguliers — l’alternance jour/nuit, les saisons, les lieux que nous fréquentons souvent, les personnes que nous voyons régulièrement, etc. — sont eux-mêmes une forme de spaced repetition. Je me demande d’ailleurs s’il n’existe pas aussi une version « inversée » de ce concept.

    • Dans mes recherches, il est apparu que les LLM « cachent » leurs données internes. Ils ne se contentent pas d’oublier : lorsqu’on poursuit l’entraînement plus tard, ces informations peuvent refaire surface. Donc, si l’on ne vérifie pas en continu l’état complet de la mémoire réelle du modèle pendant l’entraînement, une inspection partielle atteint vite ses limites.

    • Peut-être que cela fonctionne comme du least-recently-used ? J’essaie de le tester dans ma tête, juste pour voir. C’est pour ça que ce domaine est intéressant.

  • À première vue, cela ressemble à un framework où l’on fine-tune un adaptateur LoRA puis on le fusionne avec le modèle de base. On utilise la fonction « merge_and_unload » de PeftModel dans HuggingFace pour intégrer l’adaptateur dans le modèle de base… je ne vois pas bien ce qu’il y a de nouveau.

    • J’ai l’impression que la stabilité est le principal différenciateur. La structure vise à éviter l’alignment tax et l’effondrement du modèle. J’aimerais voir une architecture hypernetwork, c’est-à-dire une boucle complète où deux modèles se mettent continuellement à jour via LoRA, et où l’hypernetwork est lui-même mis à jour pour absorber le nouvel état du modèle. Si l’on utilisait un méta-hypernetwork pour appliquer aussi LoRA à l’hypernetwork, on pourrait peut-être obtenir une véritable forme de continuous learning.