6 points par GN⁺ 2024-01-30 | 2 commentaires | Partager sur WhatsApp
  • Modèle de 7,52B de paramètres basé sur l’architecture RWKV-v5
  • Le modèle 7B le plus écologique au monde, avec un coût par token faible
  • Entraîné sur 1,1 billion de tokens dans plus de 100 langues
  • Surpasse tous les modèles de la classe 7B sur les benchmarks multilingues
  • En évaluation anglaise, atteint un niveau de performance proche de Falcon (1.5T), LLaMA2 (2T) et Mistral (>2T?)
  • Modèle de fondation avec un réglage d’instructions très limité, nécessitant un fine-tuning pour divers cas d’usage
  • Un Transformer sans besoin d’Attention
  • Sous licence Apache 2.0, utilisable sans restriction à titre personnel ou commercial

Détails des performances multilingues

  • Les performances multilingues ont été évaluées sur 23 langues au total, via xLAMBDA, xStoryCloze, xWinograd, xCopa, etc.
  • Ces benchmarks portent sur le raisonnement de bon sens dans chaque langue.
  • Le passage de l’architecture RWKV v4 à v5 a fortement amélioré les performances multilingues.
  • Le manque de benchmarks multilingues rend difficile l’évaluation directe des performances linguistiques du modèle sur les plus de 75 autres langues parmi les plus de 100 langues d’entraînement.

Détails des performances en anglais

  • Les performances en anglais ont été mesurées via 12 benchmarks distincts portant sur le raisonnement de bon sens et les connaissances générales.
  • Le passage de l’architecture RWKV v4 à v5 a fortement amélioré les performances en anglais.
  • Le modèle v5 atteint le niveau de performance attendu d’un Transformer pour le volume de tokens d’entraînement donné.
  • Avec un entraînement supplémentaire sur 1 billion de tokens, il devrait atteindre le niveau de LLaMA2 et se rapprocher de celui de Mistral.

Bon dataset + architecture scalable : est-ce vraiment ce dont tout le monde a besoin ?

  • Le checkpoint au cap des 300 milliards de tokens affiche des performances comparables à pythia-6.9b.
  • Conformément aux expériences précédentes sur l’architecture RWKV-v4, les Transformers linéaires comme RWKV montent en échelle vers un niveau de performance comparable à celui des Transformers lorsque le nombre de tokens d’entraînement est identique.
  • La question revient souvent de savoir si, pour les performances d’évaluation du modèle, les données sont plus importantes que l’architecture elle-même.
  • Lorsqu’on compare le coût de calcul CUDA entre l’architecture basée sur RWKV et les modèles Transformer, la différence entre une montée en échelle linéaire et quadratique devient cruciale.

Construire une IA inclusive pour tous — pas seulement pour l’anglais

  • Un retour fréquent sur l’approche multilingue de RWKV est qu’elle nuit aux scores en anglais et ralentit la progression des Transformers linéaires.
  • Cependant, l’équipe RWKV ne prévoit pas de changer d’approche et veut construire une IA pour le monde entier, et non pour un monde centré uniquement sur l’anglais.
  • En 2023, seuls 17 % de la population mondiale parlent anglais.
  • En prenant en charge les 25 principales langues et au-delà, il est possible de couvrir environ 4 milliards de personnes, soit 50 % de la population mondiale.
  • L’équipe RWKV veut étendre le dataset multilingue et augmenter le nombre de langues prises en charge afin de couvrir 100 % de la population mondiale.

Feuille de route

  • Cette release marque le Transformer linéaire le plus puissant à ce jour.
  • Même s’il ne dépasse pas encore LLaMA2 et Mistral, il montre que l’architecture de modèle RWKV-v5 peut monter en échelle à un niveau comparable à celui des Transformers avec un nombre de tokens similaire.
  • En février 2024, une version mise à jour du papier sur RWKV v5 sera publiée, puis en mars sont prévus un modèle MoE basé sur v5 Eagle 2T ainsi que les world models RWKV-v6 "Finch" en 1.5B et 3B.

Remerciements

  • Merci à StabilityAI, qui a fourni l’essentiel des ressources de calcul pour entraîner ce modèle de base.
  • Merci à EleutherAI pour son soutien constant lors de la rédaction du papier.
  • Merci au groupe Linux Foundation AI & Data, qui soutient et héberge le projet RWKV.

L’avis de GN⁺ :

  • Eagle 7B est un modèle de Transformer linéaire qui prend en charge de nombreuses langues et offre de hautes performances à un coût efficace.
  • Ce modèle peut contribuer à améliorer l’accessibilité de l’IA et à réduire son impact environnemental.
  • L’équipe RWKV a une vision claire : faire évoluer la technologie pour que l’IA serve tous les habitants du monde et couvre toutes les langues.

2 commentaires

 
cosine20 2024-01-31

J’ai brièvement testé la démo hier soir, et c’était assez rapide avec des résultats plutôt convaincants. Il reconnaissait aussi naturellement le coréen et le japonais, et y répondait correctement.

 
GN⁺ 2024-01-30
Avis Hacker News
  • Il est intéressant de voir des avancées sur des architectures alternatives de LLM (grands modèles de langage), mais il est regrettable que l’article ne traite que de la qualité du modèle

    • L’article s’interrompt brusquement, ce qui ne donne pas suffisamment de motivation pour adopter une nouvelle architecture
    • Une discussion sur les performances et la taille du contexte serait nécessaire
    • Il est décevant que l’article ne mentionne pas le contexte
    • Le graphique de RWKV-4 a été réutilisé, mais il n’est pas clair ce qu’il montre
  • L’architecture du modèle — Transformer, Mamba, SSM, RWKV, etc. — importe moins que l’influence du jeu de données d’entraînement

    • Les données linguistiques sont un réservoir de l’expérience humaine, et le fait que l’IA acquière diverses capacités à travers elles suggère que l’intelligence n’est pas limitée au cerveau
  • RWKV-v5 Eagle 7B a été publié sous licence Apache 2.0, ce qui permet une utilisation personnelle ou commerciale sans restriction

    • Il est positif que l’équipe ait mis en place les bonnes incitations pour les tests et l’adoption
  • L’attention se porte actuellement surtout sur les modèles de prédiction du prochain token, uniquement décodeurs

    • Les encodeurs de BERT et T5 restent utiles pour générer des embeddings destinés à des tâches de recherche ou de classification
    • Davantage de recherche est nécessaire sur de meilleures architectures de pré-entraînement pour les cas d’usage liés aux embeddings
  • Demande d’explication sur la manière dont les modèles RWKV se comparent aux modèles Transformer classiques, et sur la façon d’interpréter les benchmarks

    • Les performances semblent proches de Mistral 7B/mistral-tiny
  • Les informations sur la quantité de RAM nécessaire et sur la vitesse de traitement des tokens en CPU seul restent incertaines

  • Il est suggéré de consulter les réponses d’un membre du projet aux questions sur Reddit

    • Lien vers l’utilisateur Reddit concerné fourni
  • Si vous voulez essayer un modèle RWKV sans attendre, il est recommandé d’utiliser rwkv-demo-api.recursal.ai

  • Expression d’attentes pour le modèle MoE v5 Eagle 2T basé sur mars 2024

    • On en attend un bon équilibre entre performances et coût environnemental/par token
    • Des améliorations pour les langues scandinaves sont également espérées, mais il faudra voir les résultats
    • Une meilleure compréhension de la valeur des données d’entraînement, ainsi que de la structure et de l’équilibre du contenu pour un entraînement optimal, apportera la véritable révolution
  • Lors d’expériences avec RWKV-4, la vitesse d’inférence s’est révélée rapide, mais la tokenisation très lente

    • Des instructions concrètes sur RWKV-5 sont nécessaires