10 points par ninebow 2023-10-03 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Meta a présenté le modèle LLaMA 2 Long via l'article Effective Long-Context Scaling of Foundation Models
  • La longueur de la fenêtre de contexte (context window) est prise en charge jusqu'à 32K (32 768) tokens
  • La version 70B dépasse déjà les performances globales de gpt-3.5-turbo-16k sur un ensemble de tâches à long contexte
  • Tout en conservant l'architecture existante du modèle, il applique RoPE (Rotary Positional Embedding) à l'encodage positionnel (Positional Encoding) afin de générer de meilleures réponses avec moins d'informations

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.