- Zamba2-7B atteint l’état de l’art en performances sur les benchmarks d’évaluation et en efficacité d’inférence face aux principaux modèles 7B actuels comme Mistral-7B, Gemma-7B et Llama3-8B
- Zamba2-7B génère le premier token 25 % plus vite, améliore le nombre de tokens par seconde de 20 % et réduit fortement l’usage mémoire par rapport à Llama3-8B et d’autres modèles, ce qui lui confère une très grande efficacité d’inférence
Améliorations architecturales de Zamba2-7B par rapport à Zamba1-7B
- Les blocs Mamba1 ont été remplacés par des blocs Mamba2
- Au lieu d’un seul bloc d’attention partagé, le modèle utilise deux blocs d’attention partagés, entrelacés sur l’ensemble du réseau selon un motif ABAB
- Un projecteur LoRA est appliqué à chaque bloc MLP partagé, afin de spécialiser le MLP à chaque appel de couche partagée selon la profondeur
- Les poids du modèle sont publiés en open source sous licence Apache 2.0
Performances de Zamba2-7B sur les jeux d’évaluation de modélisation du langage
- Zamba2 affiche d’excellentes performances sur les jeux d’évaluation standards de modélisation du langage, en tenant compte de la latence et de la vitesse de génération
- Il se place en tête des petits modèles de langage de 8B ou moins, à la fois en qualité et en performances
Pourquoi Zamba2-7B dépasse les modèles SOTA existants
- La nouvelle architecture d’attention partagée permet d’allouer davantage de paramètres au backbone Mamba2. Les blocs Transformer partagés préservent la richesse des dépendances inter-séquences des opérations d’attention
- Le jeu de données de préentraînement de 3 billions de tokens est composé de Zyda et d’une combinaison de jeux de données publics activement filtrés et dédupliqués, atteignant la meilleure qualité par rapport aux principaux jeux de données de préentraînement open source existants
- Lors d’une phase distincte de préentraînement dite d’« annealing », le taux d’apprentissage a été fortement réduit sur 100 milliards de tokens de haute qualité. L’ensemble d’annealing a été constitué à partir de diverses sources de grande qualité, avec un contrôle qualité strict
Grâce à l’excellente qualité des jeux de données de préentraînement et d’annealing, Zamba2-7B affiche des performances par token d’entraînement très élevées et se situe nettement au-dessus des courbes tracées par les modèles concurrents
Architecture hybride SSM-attention de Zamba
- Zamba2-7B exploite et étend l’architecture hybride SSM-attention d’origine de Zamba
- L’architecture centrale de Zamba se compose d’un backbone de couches Mamba entrelacées avec une ou plusieurs couches d’attention partagées (Zamba1 en utilise 1, Zamba2 en utilise 2)
- Cette attention utilise des poids partagés afin de minimiser le coût en paramètres du modèle
- Le fait de connecter l’embedding d’origine du modèle en entrée à ces blocs d’attention semble améliorer la conservation de l’information à travers la profondeur et donc les performances
- L’architecture Zamba2 gagne en expressivité supplémentaire grâce à l’application de matrices de projection LoRA aux MLP partagés, permettant à chaque bloc de se spécialiser légèrement selon sa position propre tout en gardant une faible surcharge en paramètres
Facteurs permettant d’atteindre une efficacité d’inférence SOTA
- Les blocs Mamba2 sont très efficaces et offrent un débit environ 4 fois supérieur à celui de blocs Transformer ayant le même nombre de paramètres
- Les blocs Mamba n’ont besoin que de petits états cachés à stocker et ne nécessitent pas de KV-cache ; il suffit donc de conserver l’état KV uniquement pour les appels aux blocs d’attention partagés
- La taille du modèle a été choisie pour être particulièrement adaptée à la parallélisation sur le matériel moderne (par ex. plusieurs streaming multiprocessors sur GPU, multicoeurs sur CPU)
Entraînement et publication de Zamba2-7B
- Zamba2-7B a été entraîné pendant environ 50 jours sur 128 GPU H100 à l’aide d’un framework interne d’entraînement développé sur la base de Megatron-LM
- Zamba2-7B montre qu’à l’échelle 7B, une petite équipe avec un budget raisonnable peut atteindre et même dépasser l’état de l’art
- Le modèle est publié sous licence open source afin que chercheurs, développeurs et entreprises puissent exploiter ses capacités
- L’équipe espère que la communauté IA explorera l’architecture unique de Zamba et continuera à repousser les limites des foundation models efficaces
Modèles Zamba2-7B publiés :
- Instruct Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B-Instruct
- Base Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B
- Pure PyTorch: https://github.com/Zyphra/Zamba2
Vision de Zyphra
- L’équipe de Zyphra se consacre à démocratiser les systèmes d’IA avancés, à explorer de nouvelles architectures à la pointe des performances, et à faire progresser la recherche scientifique et la compréhension des modèles puissants
- Elle se dit impatiente de collaborer avec d’autres personnes partageant cette vision
Avis de GN⁺
- Le fait que Zyphra publie Zamba2 en open source est très significatif. Cela devrait contribuer à la démocratisation des technologies d’IA en permettant à tous d’utiliser et d’étudier gratuitement un modèle de langage de pointe
- La nouvelle architecture de Zamba2 montre une voie pour dépasser les limites des modèles existants fondés sur les Transformers et construire des modèles de langage plus efficaces. Les idées propres à Zamba, comme l’attention partagée et les projections LoRA, devraient inspirer les futures recherches sur les modèles de langage
- Il est également encourageant de voir que des équipes de petite ou moyenne taille peuvent, en s’appuyant sur du matériel récent, créer de grands modèles de langage aux performances SOTA. On peut s’attendre à une participation plus large de diverses organisations, ce qui stimulera encore davantage le développement des foundation models
- Il faudra observer comment les performances de Zamba2 se traduisent dans les applications réelles. D’excellents scores sur les benchmarks ne se convertissent pas automatiquement en résultats sur des tâches du monde réel. Il sera important que les praticiens de différents secteurs testent Zamba2 et partagent ses points forts et ses limites
1 commentaires
Avis sur Hacker News
Fournit les liens pour ceux qui cherchent les poids non liés dans l’article
Se demande si l’amélioration des performances vient de l’amélioration du dataset ou de l’architecture. Ce serait une expérience coûteuse
Ressent une lassitude face au recours sélectif aux benchmarks dans les releases de LLM. Se demande comment cela se compare aux SOTA qwen2.5/phi3.5
Trouve positif qu’il y ait davantage de modèles sous licence Apache, en particulier avec des architectures variées
Les gains de performance paraissent très modestes au regard de la quantité de travail théorique sur les blocs Mamba2
Avec deux têtes d’attention, se demande si chacune se concentre sur un aspect différent des données
Se demande ce qui rend 7B spécial. Pourquoi pas 8B, 9B ou 11.234B ? Se demande si 7B s’interprète comme une puissance de 2
Encore un jour, encore un record du monde battu en IA
Demande si quelqu’un a une idée des langues prises en charge par ce modèle