- L’agent Autoresearch, dévoilé il y a 3 jours, a tenté de manière autonome environ 700 modifications pendant près de 2 jours sur un modèle depth=12, et a découvert environ 20 changements valides améliorant la validation loss
- Les changements découverts sont tous additifs (additive) et se transfèrent tels quels à un modèle plus grand depth=24, ce qui réduit le "Time to GPT-2" du leaderboard de 2,02 heures à 1,80 heure, soit environ 11 % de moins
- Jusqu’ici, le processus de tuning manuel itératif — génération d’idées → implémentation → vérification de la validation loss → consultation d’articles, etc. — était pratiqué depuis 20 ans
- Cette fois, l’agent a exécuté de bout en bout tout le workflow consistant à analyser la séquence des résultats expérimentaux puis, sur cette base, à planifier de façon autonome l’expérience suivante
- Les résultats du "round 1" ont déjà été commités, et le lancement du "round 2" est prévu ; une approche de collaboration entre plusieurs agents est également étudiée en parallèle pour le traitement parallèle (AgentHub)
- Ce n’est pas encore au niveau d’une recherche révolutionnaire (ground-breaking research), mais l’accumulation d’améliorations réelles manquées par le tuning manuel a permis d’obtenir un gain de performance concret
- À grande échelle, c’est bien plus complexe que d’ajuster un simple
train.py, mais comme il s’agit fondamentalement d’un problème d’ingénierie, cela reste solvable
- Avec un agent swarm, l’idée est de commencer par ajuster de petits modèles puis de faire progressivement monter les idées prometteuses en échelle ; une direction que tous les labs de pointe sur les LLM finiront par adopter
- Toute métrique pouvant être évaluée efficacement (ou disposant d’une métrique proxy) peut devenir une cible de cette optimisation automatique
Aucun commentaire pour le moment.