- Modèle de 7,52B de paramètres basé sur l’architecture RWKV-v5
- Le modèle 7B le plus écologique au monde, avec un coût par token faible
- Entraîné sur 1,1 billion de tokens dans plus de 100 langues
- Surpasse tous les modèles de la classe 7B sur les benchmarks multilingues
- En évaluation anglaise, atteint un niveau de performance proche de Falcon (1.5T), LLaMA2 (2T) et Mistral (>2T?)
- Modèle de fondation avec un réglage d’instructions très limité, nécessitant un fine-tuning pour divers cas d’usage
- Un Transformer sans besoin d’Attention
- Sous licence Apache 2.0, utilisable sans restriction à titre personnel ou commercial
Détails des performances multilingues
- Les performances multilingues ont été évaluées sur 23 langues au total, via xLAMBDA, xStoryCloze, xWinograd, xCopa, etc.
- Ces benchmarks portent sur le raisonnement de bon sens dans chaque langue.
- Le passage de l’architecture RWKV v4 à v5 a fortement amélioré les performances multilingues.
- Le manque de benchmarks multilingues rend difficile l’évaluation directe des performances linguistiques du modèle sur les plus de 75 autres langues parmi les plus de 100 langues d’entraînement.
Détails des performances en anglais
- Les performances en anglais ont été mesurées via 12 benchmarks distincts portant sur le raisonnement de bon sens et les connaissances générales.
- Le passage de l’architecture RWKV v4 à v5 a fortement amélioré les performances en anglais.
- Le modèle v5 atteint le niveau de performance attendu d’un Transformer pour le volume de tokens d’entraînement donné.
- Avec un entraînement supplémentaire sur 1 billion de tokens, il devrait atteindre le niveau de LLaMA2 et se rapprocher de celui de Mistral.
Bon dataset + architecture scalable : est-ce vraiment ce dont tout le monde a besoin ?
- Le checkpoint au cap des 300 milliards de tokens affiche des performances comparables à pythia-6.9b.
- Conformément aux expériences précédentes sur l’architecture RWKV-v4, les Transformers linéaires comme RWKV montent en échelle vers un niveau de performance comparable à celui des Transformers lorsque le nombre de tokens d’entraînement est identique.
- La question revient souvent de savoir si, pour les performances d’évaluation du modèle, les données sont plus importantes que l’architecture elle-même.
- Lorsqu’on compare le coût de calcul CUDA entre l’architecture basée sur RWKV et les modèles Transformer, la différence entre une montée en échelle linéaire et quadratique devient cruciale.
Construire une IA inclusive pour tous — pas seulement pour l’anglais
- Un retour fréquent sur l’approche multilingue de RWKV est qu’elle nuit aux scores en anglais et ralentit la progression des Transformers linéaires.
- Cependant, l’équipe RWKV ne prévoit pas de changer d’approche et veut construire une IA pour le monde entier, et non pour un monde centré uniquement sur l’anglais.
- En 2023, seuls 17 % de la population mondiale parlent anglais.
- En prenant en charge les 25 principales langues et au-delà, il est possible de couvrir environ 4 milliards de personnes, soit 50 % de la population mondiale.
- L’équipe RWKV veut étendre le dataset multilingue et augmenter le nombre de langues prises en charge afin de couvrir 100 % de la population mondiale.
Feuille de route
- Cette release marque le Transformer linéaire le plus puissant à ce jour.
- Même s’il ne dépasse pas encore LLaMA2 et Mistral, il montre que l’architecture de modèle RWKV-v5 peut monter en échelle à un niveau comparable à celui des Transformers avec un nombre de tokens similaire.
- En février 2024, une version mise à jour du papier sur RWKV v5 sera publiée, puis en mars sont prévus un modèle MoE basé sur v5 Eagle 2T ainsi que les world models RWKV-v6 "Finch" en 1.5B et 3B.
Remerciements
- Merci à StabilityAI, qui a fourni l’essentiel des ressources de calcul pour entraîner ce modèle de base.
- Merci à EleutherAI pour son soutien constant lors de la rédaction du papier.
- Merci au groupe Linux Foundation AI & Data, qui soutient et héberge le projet RWKV.
L’avis de GN⁺ :
- Eagle 7B est un modèle de Transformer linéaire qui prend en charge de nombreuses langues et offre de hautes performances à un coût efficace.
- Ce modèle peut contribuer à améliorer l’accessibilité de l’IA et à réduire son impact environnemental.
- L’équipe RWKV a une vision claire : faire évoluer la technologie pour que l’IA serve tous les habitants du monde et couvre toutes les langues.
2 commentaires
J’ai brièvement testé la démo hier soir, et c’était assez rapide avec des résultats plutôt convaincants. Il reconnaissait aussi naturellement le coréen et le japonais, et y répondait correctement.
Avis Hacker News
Il est intéressant de voir des avancées sur des architectures alternatives de LLM (grands modèles de langage), mais il est regrettable que l’article ne traite que de la qualité du modèle
L’architecture du modèle — Transformer, Mamba, SSM, RWKV, etc. — importe moins que l’influence du jeu de données d’entraînement
RWKV-v5 Eagle 7B a été publié sous licence Apache 2.0, ce qui permet une utilisation personnelle ou commerciale sans restriction
L’attention se porte actuellement surtout sur les modèles de prédiction du prochain token, uniquement décodeurs
Demande d’explication sur la manière dont les modèles RWKV se comparent aux modèles Transformer classiques, et sur la façon d’interpréter les benchmarks
Les informations sur la quantité de RAM nécessaire et sur la vitesse de traitement des tokens en CPU seul restent incertaines
Il est suggéré de consulter les réponses d’un membre du projet aux questions sur Reddit
Si vous voulez essayer un modèle RWKV sans attendre, il est recommandé d’utiliser rwkv-demo-api.recursal.ai
Expression d’attentes pour le modèle MoE v5 Eagle 2T basé sur mars 2024
Lors d’expériences avec RWKV-4, la vitesse d’inférence s’est révélée rapide, mais la tokenisation très lente