- Publication des poids et de l’architecture d’un modèle Mixture-of-Experts de 314B (314 milliards) de paramètres
- Modèle de base brut issu de la phase de pré-entraînement de Grok-1, achevée en octobre 2023
- Cela signifie que le modèle n’a pas été affiné pour des tâches spécifiques comme la conversation
- Détails du modèle
- Modèle de base entraîné sur un grand volume de données textuelles, sans affinement pour une tâche particulière
- Modèle Mixture of Experts de 314B paramètres avec 25 % des poids activés pour un token donné
- Entraîné depuis zéro par xAI en octobre 2023 à l’aide d’une stack d’entraînement personnalisée reposant sur JAX et Rust
Utilisation du dépôt Grok-1
- Le dépôt Grok-1, qui inclut des exemples de code JAX, sert à charger et exécuter le modèle open-weight Grok-1.
- Après avoir téléchargé le checkpoint et placé le répertoire
ckpt-0 dans le répertoire checkpoint, on peut tester le code en exécutant pip install -r requirements.txt puis python run.py.
- Le script charge le checkpoint et génère des échantillons à partir du modèle sur une entrée de test.
- Comme le modèle est extrêmement volumineux (314B paramètres), une machine disposant de suffisamment de mémoire GPU est nécessaire.
- L’implémentation des couches MoE (Mixture of Experts) dans ce dépôt n’est pas efficace et a été choisie afin d’éviter les kernels personnalisés pour vérifier l’exactitude du modèle.
Téléchargement des poids
- Les poids peuvent être téléchargés avec un client torrent et le lien suivant :
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
Licence
- Le code inclus dans cette publication ainsi que les poids de Grok-1 sont distribués sous licence Apache 2.0.
- La licence s’applique uniquement aux fichiers source de ce dépôt et aux poids du modèle Grok-1.
L’avis de GN⁺
- Grok-1 est un modèle doté d’un très grand nombre de paramètres, offrant aux chercheurs et ingénieurs en machine learning une bonne opportunité d’expérimenter avec des ressources de calcul haute performance.
- En adoptant la licence open source Apache 2.0, la communauté peut utiliser, modifier et redistribuer librement le modèle, ce qui peut favoriser la collaboration et l’innovation.
- Comme le modèle est extrêmement volumineux, son expérimentation pratique exige d’importantes ressources de calcul, ce qui peut en limiter l’accessibilité.
- L’implémentation inefficace des couches MoE peut être utile dans un cadre de recherche, mais pour une application dans des produits ou services réels, il faudra rechercher une implémentation optimisée.
- Parmi les autres projets open source offrant des capacités similaires figurent TensorFlow de Google et PyTorch de Facebook, qui peuvent eux aussi servir à expérimenter avec des modèles de grande taille.
1 commentaires
Réactions sur Hacker News
Le modèle 8x86B semble être le plus grand modèle ouvert à ce jour. Il serait intéressant de savoir avec combien de tokens ce modèle a été entraîné.
Pourquoi voudrait-on utiliser ce modèle plutôt qu’une alternative open source comme Mistral ?
Est-ce le premier grand modèle à prendre en charge le FP8 natif ? Cela semble pouvoir être un gros avantage lorsque le matériel le prend en charge, et je me demande pourquoi personne ne l’avait encore fait jusque-là.
Quelles langues ce modèle prend-il en charge ?
Billet de blog : Grok-OS
Billet de blog publié l’an dernier : Grok
À quel moment atteindra-t-on la limite supérieure, ou le point de rendement décroissant, en termes de nombre de paramètres et de mélange d’experts ?
Y a-t-il une model card quelque part ? J’aimerais savoir avec quoi ce modèle a été entraîné.
Point subtil : Musk a parlé d’"open source", mais au final on obtient plutôt des "poids ouverts" (cela dit, c’est déjà bien mieux que rien, donc j’en suis très reconnaissant).
L’autre dépôt n’est qu’un fork de Qdrant.