17 points par xguru 2026-03-11 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • L’agent Autoresearch, dévoilé il y a 3 jours, a tenté de manière autonome environ 700 modifications pendant près de 2 jours sur un modèle depth=12, et a découvert environ 20 changements valides améliorant la validation loss
  • Les changements découverts sont tous additifs (additive) et se transfèrent tels quels à un modèle plus grand depth=24, ce qui réduit le "Time to GPT-2" du leaderboard de 2,02 heures à 1,80 heure, soit environ 11 % de moins
  • Jusqu’ici, le processus de tuning manuel itératif — génération d’idées → implémentation → vérification de la validation loss → consultation d’articles, etc. — était pratiqué depuis 20 ans
  • Cette fois, l’agent a exécuté de bout en bout tout le workflow consistant à analyser la séquence des résultats expérimentaux puis, sur cette base, à planifier de façon autonome l’expérience suivante
  • Les résultats du "round 1" ont déjà été commités, et le lancement du "round 2" est prévu ; une approche de collaboration entre plusieurs agents est également étudiée en parallèle pour le traitement parallèle (AgentHub)
  • Ce n’est pas encore au niveau d’une recherche révolutionnaire (ground-breaking research), mais l’accumulation d’améliorations réelles manquées par le tuning manuel a permis d’obtenir un gain de performance concret
  • À grande échelle, c’est bien plus complexe que d’ajuster un simple train.py, mais comme il s’agit fondamentalement d’un problème d’ingénierie, cela reste solvable
  • Avec un agent swarm, l’idée est de commencer par ajuster de petits modèles puis de faire progressivement monter les idées prometteuses en échelle ; une direction que tous les labs de pointe sur les LLM finiront par adopter
  • Toute métrique pouvant être évaluée efficacement (ou disposant d’une métrique proxy) peut devenir une cible de cette optimisation automatique

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.