- Meta a présenté le modèle LLaMA 2 Long via l'article Effective Long-Context Scaling of Foundation Models
- La longueur de la fenêtre de contexte (
context window) est prise en charge jusqu'à 32K (32 768) tokens
- La version 70B dépasse déjà les performances globales de
gpt-3.5-turbo-16k sur un ensemble de tâches à long contexte
- Tout en conservant l'architecture existante du modèle, il applique RoPE (Rotary Positional Embedding) à l'encodage positionnel (Positional Encoding) afin de générer de meilleures réponses avec moins d'informations
Aucun commentaire pour le moment.