Meta publie LLaMA 2 Long, avec prise en charge d'une fenêtre de contexte de 32k tokens

ninebow · 2023-10-03T12:00:04+09:00

Meta a présenté le modèle LLaMA 2 Long via l'article Effective Long-Context Scaling of Foundation Models Lien vers l'article : https://arxiv.org/pdf/2309.16039.pdf La longueur de la fenêtre de contexte (context window) est prise en charge jusqu'à 32K (32 768) tokens La version 70B dépasse déjà les performances globales de gpt-3.5-turbo-16k sur un ensemble de tâches à long contexte Tout en conservant l'architecture existante du modèle, il applique RoPE (Rotary Positional Embedding) à l'encodage positionnel (Positional Encoding) afin de générer de meilleures réponses avec moins d'informations Explication de RoPE : https://blog.eleuther.ai/rotary-embeddings/

(venturebeat.com)

10 points par ninebow 2023-10-03 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Meta a présenté le modèle LLaMA 2 Long via l'article Effective Long-Context Scaling of Foundation Models
- Lien vers l'article : https://arxiv.org/pdf/2309.16039.pdf
La longueur de la fenêtre de contexte (context window) est prise en charge jusqu'à 32K (32 768) tokens
La version 70B dépasse déjà les performances globales de gpt-3.5-turbo-16k sur un ensemble de tâches à long contexte
Tout en conservant l'architecture existante du modèle, il applique RoPE (Rotary Positional Embedding) à l'encodage positionnel (Positional Encoding) afin de générer de meilleures réponses avec moins d'informations
- Explication de RoPE : https://blog.eleuther.ai/rotary-embeddings/

Meta publie LLaMA 2 Long, avec prise en charge d'une fenêtre de contexte de 32k tokens

À lire aussi

Aucun commentaire pour le moment.