PonderTTT - Allocation adaptative du calcul basée sur TTT
(ponderttt.worldsw.dev)Bonjour, voici mon premier article sur arXiv, réalisé dans le cadre d'une recherche indépendante au lycée.
Idée principale :
Comme il est inefficace qu'un LLM utilise le même volume de calcul pour des entrées faciles et difficiles, nous utilisons la reconstruction loss de la couche TTT comme signal pour décider entre UPDATE et SKIP.
Sans entraînement supplémentaire, nous avons atteint 82 à 89 % des performances de l'Oracle avec uniquement un threshold et une EMA.
L'implémentation a été faite en JAX/Flax, et une validation de montée en échelle avec Gemma 3 est en cours.
Les retours sont les bienvenus !
3 commentaires
Vous êtes au lycée, c’est impressionnant. Comment avez-vous résolu le problème du garant ?
Je l’ai obtenu en envoyant assidûment des cold emails à des doctorants et professeurs à l’étranger qui avaient mené des recherches antérieures !
Ah, voilà une réponse parfaitement pertinente.