6 points par xguru 2024-05-02 | 1 commentaires | Partager sur WhatsApp
  • Le modèle développé par Gradient étend la longueur de contexte de LLama-3 8B de 8k à plus de 1040K.
  • Il montre qu’un SOTA LLM peut apprendre à gérer de longs contextes en ajustant correctement le RoPE theta avec un entraînement minimal.
  • Cette étape a été entraînée avec 830M de tokens, et le total de tous les stades n’est que de 1,4B tokens, soit 0,1 % des données d’entraînement préalables d’origine de Llama3.
  • Remarque : pour une fenêtre de contexte de 256k, au moins 64 Go de mémoire sont nécessaires. Pour un contexte de plus de 1M, il faut au moins 100 Go.

1 commentaires

 
livekth 2024-05-02

Un commentaire affirme que, grâce à l’extension de la fenêtre de contexte, les performances ont chuté de manière significative par rapport au LLaMa 3 d’origine, au point de devenir inutilisables.

https://twitter.com/ArkaPal999/status/1785611161540378707