Pour utiliser un LLM coréen avec une longue fenêtre de contexte, voici diverses méthodes étudiées et testées pour augmenter efficacement la longueur de contexte d’un LLM
LongLoRA
Extension jusqu’à 8x grâce à la shifted sparse attention et au fine-tuning LoRA
Rope-based Position Interpolation
Applicable aux modèles utilisant des embeddings basés sur RoPE comme Llama en modifiant l’embedding RoPE, avec une extension de la longueur de contexte jusqu’à 16x via fine-tuning
Dynamic NTK
Extension de plus de 2x en appliquant la théorie NTK sans fine-tuning
LongLM
Utilise une attention modifiée pour étendre jusqu’à 4x sans fine-tuning
ChunkLlama
Décompose le texte en chunks pour étendre la longueur de contexte du modèle Llama à 4x sans fine-tuning
Infini-attention
Peut être étendu jusqu’à 2M avec peu de mémoire supplémentaire et permet une inférence rapide ; méthode appliquée à Gemini-Pro
2 commentaires
Pour utiliser un LLM coréen avec une longue fenêtre de contexte, voici diverses méthodes étudiées et testées pour augmenter efficacement la longueur de contexte d’un LLM
LongLoRA
Extension jusqu’à 8x grâce à la shifted sparse attention et au fine-tuning LoRA
Rope-based Position Interpolation
Applicable aux modèles utilisant des embeddings basés sur RoPE comme Llama en modifiant l’embedding RoPE, avec une extension de la longueur de contexte jusqu’à 16x via fine-tuning
Dynamic NTK
Extension de plus de 2x en appliquant la théorie NTK sans fine-tuning
LongLM
Utilise une attention modifiée pour étendre jusqu’à 4x sans fine-tuning
ChunkLlama
Décompose le texte en chunks pour étendre la longueur de contexte du modèle Llama à 4x sans fine-tuning
Infini-attention
Peut être étendu jusqu’à 2M avec peu de mémoire supplémentaire et permet une inférence rapide ; méthode appliquée à Gemini-Pro
C’est bien la première fois que je vois un article sans le moindre résumé.