PonderTTT - Allocation adaptative du calcul basée sur TTT

Bonjour, voici mon premier article sur arXiv, réalisé dans le cadre d'une recherche indépendante au lycée.

Idée principale :
Comme il est inefficace qu'un LLM utilise le même volume de calcul pour des entrées faciles et difficiles, nous utilisons la reconstruction loss de la couche TTT comme signal pour décider entre UPDATE et SKIP.
Sans entraînement supplémentaire, nous avons atteint 82 à 89 % des performances de l'Oracle avec uniquement un threshold et une EMA.

L'implémentation a été faite en JAX/Flax, et une validation de montée en échelle avec Gemma 3 est en cours.

Les retours sont les bienvenus !

3 commentaires

jhk0530 2026-01-07

Vous êtes au lycée, c’est impressionnant. Comment avez-vous résolu le problème du garant ?

devworld 2026-01-07

Je l’ai obtenu en envoyant assidûment des cold emails à des doctorants et professeurs à l’étranger qui avaient mené des recherches antérieures !

jhk0530 2026-01-07

Ah, voilà une réponse parfaitement pertinente.

PonderTTT - Allocation adaptative du calcul basée sur TTT

À lire aussi

3 commentaires