Llama3-gradient : un modèle qui étend la longueur de contexte de LLAMA de 8k à 1M

xguru · 2024-05-02T10:46:01+09:00

Le modèle développé par Gradient étend la longueur de contexte de LLama-3 8B de 8k à plus de 1040K. Il montre qu’un SOTA LLM peut apprendre à gérer de longs contextes en ajustant correctement le RoPE theta avec un entraînement minimal. Cette étape a été entraînée avec 830M de tokens, et le total de tous les stades n’est que de 1,4B tokens, soit 0,1 % des données d’entraînement préalables d’origine de Llama3. Remarque : pour une fenêtre de contexte de 256k, au moins 64 Go de mémoire sont nécessaires. Pour un contexte de plus de 1M, il faut au moins 100 Go.

(ollama.com)

6 points par xguru 2024-05-02 | 1 commentaires | Partager sur WhatsApp

Le modèle développé par Gradient étend la longueur de contexte de LLama-3 8B de 8k à plus de 1040K.
Il montre qu’un SOTA LLM peut apprendre à gérer de longs contextes en ajustant correctement le RoPE theta avec un entraînement minimal.
Cette étape a été entraînée avec 830M de tokens, et le total de tous les stades n’est que de 1,4B tokens, soit 0,1 % des données d’entraînement préalables d’origine de Llama3.
Remarque : pour une fenêtre de contexte de 256k, au moins 64 Go de mémoire sont nécessaires. Pour un contexte de plus de 1M, il faut au moins 100 Go.

1 commentaires

livekth 2024-05-02

Un commentaire affirme que, grâce à l’extension de la fenêtre de contexte, les performances ont chuté de manière significative par rapport au LLaMa 3 d’origine, au point de devenir inutilisables.

https://twitter.com/ArkaPal999/status/1785611161540378707

Llama3-gradient : un modèle qui étend la longueur de contexte de LLAMA de 8k à 1M

À lire aussi

1 commentaires