9 points par xguru 2023-12-13 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Utilise Hyena, une nouvelle architecture destinée à remplacer le Transformer afin de prendre en charge des contextes très longs (Ultra Long)
    • Hyena est basée sur un modèle de séquence inspiré du traitement du signal
  • Premier modèle alternatif capable de rivaliser avec les Transformers sur les évaluations en contexte court et long
  • Affiche des performances comparables à Llama-2, Yi et Mistral 7B sur les tâches du leaderboard OpenLLM, et excelle sur les résumés en contexte long
  • StripedHyena est plus rapide et plus économe en mémoire pour l'entraînement, le fine-tuning et la génération sur de longues séquences
  • Optimisé grâce à une nouvelle technique de Model Grafting, qui permet de modifier l'architecture du modèle pendant l'entraînement
    • StripedHyena résulte de la greffe de composants d'architecture Transformer et Hyena, et a été entraîné sur un mélange du jeu de données RedPajama enrichi avec davantage de données à long contexte

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.