- Utilise Hyena, une nouvelle architecture destinée à remplacer le Transformer afin de prendre en charge des contextes très longs (Ultra Long)
- Hyena est basée sur un modèle de séquence inspiré du traitement du signal
- Premier modèle alternatif capable de rivaliser avec les Transformers sur les évaluations en contexte court et long
- Affiche des performances comparables à Llama-2, Yi et Mistral 7B sur les tâches du leaderboard OpenLLM, et excelle sur les résumés en contexte long
- StripedHyena est plus rapide et plus économe en mémoire pour l'entraînement, le fine-tuning et la génération sur de longues séquences
- Optimisé grâce à une nouvelle technique de Model Grafting, qui permet de modifier l'architecture du modèle pendant l'entraînement
- StripedHyena résulte de la greffe de composants d'architecture Transformer et Hyena, et a été entraîné sur un mélange du jeu de données RedPajama enrichi avec davantage de données à long contexte
Aucun commentaire pour le moment.