Zyphra dévoile Zamba2-7B, un petit modèle de langage qui dépasse Llama3

(zyphra.com)

7 points par GN⁺ 2024-10-16 | 1 commentaires | Partager sur WhatsApp

Zamba2-7B atteint l’état de l’art en performances sur les benchmarks d’évaluation et en efficacité d’inférence face aux principaux modèles 7B actuels comme Mistral-7B, Gemma-7B et Llama3-8B
Zamba2-7B génère le premier token 25 % plus vite, améliore le nombre de tokens par seconde de 20 % et réduit fortement l’usage mémoire par rapport à Llama3-8B et d’autres modèles, ce qui lui confère une très grande efficacité d’inférence

Améliorations architecturales de Zamba2-7B par rapport à Zamba1-7B

Les blocs Mamba1 ont été remplacés par des blocs Mamba2
Au lieu d’un seul bloc d’attention partagé, le modèle utilise deux blocs d’attention partagés, entrelacés sur l’ensemble du réseau selon un motif ABAB
Un projecteur LoRA est appliqué à chaque bloc MLP partagé, afin de spécialiser le MLP à chaque appel de couche partagée selon la profondeur
Les poids du modèle sont publiés en open source sous licence Apache 2.0

Performances de Zamba2-7B sur les jeux d’évaluation de modélisation du langage

Zamba2 affiche d’excellentes performances sur les jeux d’évaluation standards de modélisation du langage, en tenant compte de la latence et de la vitesse de génération
Il se place en tête des petits modèles de langage de 8B ou moins, à la fois en qualité et en performances

Pourquoi Zamba2-7B dépasse les modèles SOTA existants

La nouvelle architecture d’attention partagée permet d’allouer davantage de paramètres au backbone Mamba2. Les blocs Transformer partagés préservent la richesse des dépendances inter-séquences des opérations d’attention
Le jeu de données de préentraînement de 3 billions de tokens est composé de Zyda et d’une combinaison de jeux de données publics activement filtrés et dédupliqués, atteignant la meilleure qualité par rapport aux principaux jeux de données de préentraînement open source existants
Lors d’une phase distincte de préentraînement dite d’« annealing », le taux d’apprentissage a été fortement réduit sur 100 milliards de tokens de haute qualité. L’ensemble d’annealing a été constitué à partir de diverses sources de grande qualité, avec un contrôle qualité strict

Grâce à l’excellente qualité des jeux de données de préentraînement et d’annealing, Zamba2-7B affiche des performances par token d’entraînement très élevées et se situe nettement au-dessus des courbes tracées par les modèles concurrents

Architecture hybride SSM-attention de Zamba

Zamba2-7B exploite et étend l’architecture hybride SSM-attention d’origine de Zamba
L’architecture centrale de Zamba se compose d’un backbone de couches Mamba entrelacées avec une ou plusieurs couches d’attention partagées (Zamba1 en utilise 1, Zamba2 en utilise 2)
Cette attention utilise des poids partagés afin de minimiser le coût en paramètres du modèle
Le fait de connecter l’embedding d’origine du modèle en entrée à ces blocs d’attention semble améliorer la conservation de l’information à travers la profondeur et donc les performances
L’architecture Zamba2 gagne en expressivité supplémentaire grâce à l’application de matrices de projection LoRA aux MLP partagés, permettant à chaque bloc de se spécialiser légèrement selon sa position propre tout en gardant une faible surcharge en paramètres

Facteurs permettant d’atteindre une efficacité d’inférence SOTA

Les blocs Mamba2 sont très efficaces et offrent un débit environ 4 fois supérieur à celui de blocs Transformer ayant le même nombre de paramètres
Les blocs Mamba n’ont besoin que de petits états cachés à stocker et ne nécessitent pas de KV-cache ; il suffit donc de conserver l’état KV uniquement pour les appels aux blocs d’attention partagés
La taille du modèle a été choisie pour être particulièrement adaptée à la parallélisation sur le matériel moderne (par ex. plusieurs streaming multiprocessors sur GPU, multicoeurs sur CPU)

Entraînement et publication de Zamba2-7B

Zamba2-7B a été entraîné pendant environ 50 jours sur 128 GPU H100 à l’aide d’un framework interne d’entraînement développé sur la base de Megatron-LM
Zamba2-7B montre qu’à l’échelle 7B, une petite équipe avec un budget raisonnable peut atteindre et même dépasser l’état de l’art
Le modèle est publié sous licence open source afin que chercheurs, développeurs et entreprises puissent exploiter ses capacités
L’équipe espère que la communauté IA explorera l’architecture unique de Zamba et continuera à repousser les limites des foundation models efficaces

Modèles Zamba2-7B publiés :

Instruct Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B-Instruct
Base Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B
Pure PyTorch: https://github.com/Zyphra/Zamba2

Vision de Zyphra

L’équipe de Zyphra se consacre à démocratiser les systèmes d’IA avancés, à explorer de nouvelles architectures à la pointe des performances, et à faire progresser la recherche scientifique et la compréhension des modèles puissants
Elle se dit impatiente de collaborer avec d’autres personnes partageant cette vision

Avis de GN⁺

Le fait que Zyphra publie Zamba2 en open source est très significatif. Cela devrait contribuer à la démocratisation des technologies d’IA en permettant à tous d’utiliser et d’étudier gratuitement un modèle de langage de pointe
La nouvelle architecture de Zamba2 montre une voie pour dépasser les limites des modèles existants fondés sur les Transformers et construire des modèles de langage plus efficaces. Les idées propres à Zamba, comme l’attention partagée et les projections LoRA, devraient inspirer les futures recherches sur les modèles de langage
Il est également encourageant de voir que des équipes de petite ou moyenne taille peuvent, en s’appuyant sur du matériel récent, créer de grands modèles de langage aux performances SOTA. On peut s’attendre à une participation plus large de diverses organisations, ce qui stimulera encore davantage le développement des foundation models
Il faudra observer comment les performances de Zamba2 se traduisent dans les applications réelles. D’excellents scores sur les benchmarks ne se convertissent pas automatiquement en résultats sur des tâches du monde réel. Il sera important que les praticiens de différents secteurs testent Zamba2 et partagent ses points forts et ses limites

1 commentaires

GN⁺ 2024-10-16

Avis sur Hacker News

Fournit les liens pour ceux qui cherchent les poids non liés dans l’article
- Modèle de base : Zyphra/Zamba2-7B
- Ajustement Instruct : Zyphra/Zamba2-7B-Instruct
Se demande si l’amélioration des performances vient de l’amélioration du dataset ou de l’architecture. Ce serait une expérience coûteuse
Ressent une lassitude face au recours sélectif aux benchmarks dans les releases de LLM. Se demande comment cela se compare aux SOTA qwen2.5/phi3.5
- Demande si quelqu’un connaît un leaderboard indépendant à jour. Lmsys et livebench sautent la plupart des modèles majeurs récents
Trouve positif qu’il y ait davantage de modèles sous licence Apache, en particulier avec des architectures variées
Les gains de performance paraissent très modestes au regard de la quantité de travail théorique sur les blocs Mamba2
- L’attention reste importante
Avec deux têtes d’attention, se demande si chacune se concentre sur un aspect différent des données
- Il existe en recherche sur la mémoire le concept d’une double représentation des événements. L’une est plus précise, l’autre davantage pondérée par le contexte
- Dans les LLM, on peut imaginer un système où une tête d’attention se concentre sur la représentation précise, et l’autre sur une information plus grossière. Mais il ne connaît pas assez bien les LLM pour savoir s’il ne s’agit que d’une simple analogie
Se demande ce qui rend 7B spécial. Pourquoi pas 8B, 9B ou 11.234B ? Se demande si 7B s’interprète comme une puissance de 2
Encore un jour, encore un record du monde battu en IA
- Cela fait penser à Sergey Bubka, qui a battu 35 fois le record du monde masculin du saut à la perche
Demande si quelqu’un a une idée des langues prises en charge par ce modèle