Eagle 7B - Le modèle qui a dépassé les Transformers

Modèle de 7,52B de paramètres basé sur l’architecture RWKV-v5
Le modèle 7B le plus écologique au monde, avec un coût par token faible
Entraîné sur 1,1 billion de tokens dans plus de 100 langues
Surpasse tous les modèles de la classe 7B sur les benchmarks multilingues
En évaluation anglaise, atteint un niveau de performance proche de Falcon (1.5T), LLaMA2 (2T) et Mistral (>2T?)
Modèle de fondation avec un réglage d’instructions très limité, nécessitant un fine-tuning pour divers cas d’usage
Un Transformer sans besoin d’Attention
Sous licence Apache 2.0, utilisable sans restriction à titre personnel ou commercial

Détails des performances multilingues

Les performances multilingues ont été évaluées sur 23 langues au total, via xLAMBDA, xStoryCloze, xWinograd, xCopa, etc.
Ces benchmarks portent sur le raisonnement de bon sens dans chaque langue.
Le passage de l’architecture RWKV v4 à v5 a fortement amélioré les performances multilingues.
Le manque de benchmarks multilingues rend difficile l’évaluation directe des performances linguistiques du modèle sur les plus de 75 autres langues parmi les plus de 100 langues d’entraînement.

Les performances en anglais ont été mesurées via 12 benchmarks distincts portant sur le raisonnement de bon sens et les connaissances générales.
Le passage de l’architecture RWKV v4 à v5 a fortement amélioré les performances en anglais.
Le modèle v5 atteint le niveau de performance attendu d’un Transformer pour le volume de tokens d’entraînement donné.
Avec un entraînement supplémentaire sur 1 billion de tokens, il devrait atteindre le niveau de LLaMA2 et se rapprocher de celui de Mistral.

Le checkpoint au cap des 300 milliards de tokens affiche des performances comparables à pythia-6.9b.
Conformément aux expériences précédentes sur l’architecture RWKV-v4, les Transformers linéaires comme RWKV montent en échelle vers un niveau de performance comparable à celui des Transformers lorsque le nombre de tokens d’entraînement est identique.
La question revient souvent de savoir si, pour les performances d’évaluation du modèle, les données sont plus importantes que l’architecture elle-même.
Lorsqu’on compare le coût de calcul CUDA entre l’architecture basée sur RWKV et les modèles Transformer, la différence entre une montée en échelle linéaire et quadratique devient cruciale.

Un retour fréquent sur l’approche multilingue de RWKV est qu’elle nuit aux scores en anglais et ralentit la progression des Transformers linéaires.
Cependant, l’équipe RWKV ne prévoit pas de changer d’approche et veut construire une IA pour le monde entier, et non pour un monde centré uniquement sur l’anglais.
En 2023, seuls 17 % de la population mondiale parlent anglais.
En prenant en charge les 25 principales langues et au-delà, il est possible de couvrir environ 4 milliards de personnes, soit 50 % de la population mondiale.
L’équipe RWKV veut étendre le dataset multilingue et augmenter le nombre de langues prises en charge afin de couvrir 100 % de la population mondiale.

Cette release marque le Transformer linéaire le plus puissant à ce jour.
Même s’il ne dépasse pas encore LLaMA2 et Mistral, il montre que l’architecture de modèle RWKV-v5 peut monter en échelle à un niveau comparable à celui des Transformers avec un nombre de tokens similaire.
En février 2024, une version mise à jour du papier sur RWKV v5 sera publiée, puis en mars sont prévus un modèle MoE basé sur v5 Eagle 2T ainsi que les world models RWKV-v6 "Finch" en 1.5B et 3B.

Merci à StabilityAI, qui a fourni l’essentiel des ressources de calcul pour entraîner ce modèle de base.
Merci à EleutherAI pour son soutien constant lors de la rédaction du papier.
Merci au groupe Linux Foundation AI & Data, qui soutient et héberge le projet RWKV.

Eagle 7B est un modèle de Transformer linéaire qui prend en charge de nombreuses langues et offre de hautes performances à un coût efficace.
Ce modèle peut contribuer à améliorer l’accessibilité de l’IA et à réduire son impact environnemental.
L’équipe RWKV a une vision claire : faire évoluer la technologie pour que l’IA serve tous les habitants du monde et couvre toutes les langues.