xAI publie les poids du modèle de base et l’architecture réseau de Grok-1 LLM

(github.com/xai-org)

6 points par GN⁺ 2024-03-18 | 1 commentaires | Partager sur WhatsApp

Publication des poids et de l’architecture d’un modèle Mixture-of-Experts de 314B (314 milliards) de paramètres
Modèle de base brut issu de la phase de pré-entraînement de Grok-1, achevée en octobre 2023
- Cela signifie que le modèle n’a pas été affiné pour des tâches spécifiques comme la conversation
Détails du modèle
- Modèle de base entraîné sur un grand volume de données textuelles, sans affinement pour une tâche particulière
- Modèle Mixture of Experts de 314B paramètres avec 25 % des poids activés pour un token donné
- Entraîné depuis zéro par xAI en octobre 2023 à l’aide d’une stack d’entraînement personnalisée reposant sur JAX et Rust

Utilisation du dépôt Grok-1

Le dépôt Grok-1, qui inclut des exemples de code JAX, sert à charger et exécuter le modèle open-weight Grok-1.
Après avoir téléchargé le checkpoint et placé le répertoire ckpt-0 dans le répertoire checkpoint, on peut tester le code en exécutant pip install -r requirements.txt puis python run.py.
Le script charge le checkpoint et génère des échantillons à partir du modèle sur une entrée de test.
Comme le modèle est extrêmement volumineux (314B paramètres), une machine disposant de suffisamment de mémoire GPU est nécessaire.
L’implémentation des couches MoE (Mixture of Experts) dans ce dépôt n’est pas efficace et a été choisie afin d’éviter les kernels personnalisés pour vérifier l’exactitude du modèle.

Téléchargement des poids

Les poids peuvent être téléchargés avec un client torrent et le lien suivant : magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

Licence

Le code inclus dans cette publication ainsi que les poids de Grok-1 sont distribués sous licence Apache 2.0.
La licence s’applique uniquement aux fichiers source de ce dépôt et aux poids du modèle Grok-1.

L’avis de GN⁺

Grok-1 est un modèle doté d’un très grand nombre de paramètres, offrant aux chercheurs et ingénieurs en machine learning une bonne opportunité d’expérimenter avec des ressources de calcul haute performance.
En adoptant la licence open source Apache 2.0, la communauté peut utiliser, modifier et redistribuer librement le modèle, ce qui peut favoriser la collaboration et l’innovation.
Comme le modèle est extrêmement volumineux, son expérimentation pratique exige d’importantes ressources de calcul, ce qui peut en limiter l’accessibilité.
L’implémentation inefficace des couches MoE peut être utile dans un cadre de recherche, mais pour une application dans des produits ou services réels, il faudra rechercher une implémentation optimisée.
Parmi les autres projets open source offrant des capacités similaires figurent TensorFlow de Google et PyTorch de Facebook, qui peuvent eux aussi servir à expérimenter avec des modèles de grande taille.

1 commentaires

GN⁺ 2024-03-18

Réactions sur Hacker News

Le modèle 8x86B semble être le plus grand modèle ouvert à ce jour. Il serait intéressant de savoir avec combien de tokens ce modèle a été entraîné.
- C’est un modèle de base entraîné sur de très grands volumes de données textuelles, sans réglage fin pour des tâches spécifiques.
- La version montrée en avant-première sur Twitter serait probablement un modèle ajusté par instruction, qui se comporte différemment des poids bruts.
Pourquoi voudrait-on utiliser ce modèle plutôt qu’une alternative open source comme Mistral ?
Est-ce le premier grand modèle à prendre en charge le FP8 natif ? Cela semble pouvoir être un gros avantage lorsque le matériel le prend en charge, et je me demande pourquoi personne ne l’avait encore fait jusque-là.
Quelles langues ce modèle prend-il en charge ?
Billet de blog : Grok-OS
- 86B paramètres actifs sur 314B au total.
- 2 experts activés sur un mélange de 8 experts.
- Les poids et l’architecture sont sous licence Apache 2.0.
Billet de blog publié l’an dernier : Grok
- Inclut des benchmarks comparés à Claude 2, GPT-3.5 et GPT-4.
- Capacités comparables à GPT-3.5, Mixtral et Qwen-1.5-72B, mais nettement plus grand que les modèles à poids ouverts.
À quel moment atteindra-t-on la limite supérieure, ou le point de rendement décroissant, en termes de nombre de paramètres et de mélange d’experts ?
Y a-t-il une model card quelque part ? J’aimerais savoir avec quoi ce modèle a été entraîné.
Point subtil : Musk a parlé d’"open source", mais au final on obtient plutôt des "poids ouverts" (cela dit, c’est déjà bien mieux que rien, donc j’en suis très reconnaissant).
L’autre dépôt n’est qu’un fork de Qdrant.

xAI publie les poids du modèle de base et l’architecture réseau de Grok-1 LLM

Utilisation du dépôt Grok-1

Téléchargement des poids

Licence

L’avis de GN⁺

À lire aussi

1 commentaires

Réactions sur Hacker News