6 points par GN⁺ 2024-03-18 | 1 commentaires | Partager sur WhatsApp
  • Publication des poids et de l’architecture d’un modèle Mixture-of-Experts de 314B (314 milliards) de paramètres
  • Modèle de base brut issu de la phase de pré-entraînement de Grok-1, achevée en octobre 2023
    • Cela signifie que le modèle n’a pas été affiné pour des tâches spécifiques comme la conversation
  • Détails du modèle
    • Modèle de base entraîné sur un grand volume de données textuelles, sans affinement pour une tâche particulière
    • Modèle Mixture of Experts de 314B paramètres avec 25 % des poids activés pour un token donné
    • Entraîné depuis zéro par xAI en octobre 2023 à l’aide d’une stack d’entraînement personnalisée reposant sur JAX et Rust

Utilisation du dépôt Grok-1

  • Le dépôt Grok-1, qui inclut des exemples de code JAX, sert à charger et exécuter le modèle open-weight Grok-1.
  • Après avoir téléchargé le checkpoint et placé le répertoire ckpt-0 dans le répertoire checkpoint, on peut tester le code en exécutant pip install -r requirements.txt puis python run.py.
  • Le script charge le checkpoint et génère des échantillons à partir du modèle sur une entrée de test.
  • Comme le modèle est extrêmement volumineux (314B paramètres), une machine disposant de suffisamment de mémoire GPU est nécessaire.
  • L’implémentation des couches MoE (Mixture of Experts) dans ce dépôt n’est pas efficace et a été choisie afin d’éviter les kernels personnalisés pour vérifier l’exactitude du modèle.

Téléchargement des poids

  • Les poids peuvent être téléchargés avec un client torrent et le lien suivant : magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

Licence

  • Le code inclus dans cette publication ainsi que les poids de Grok-1 sont distribués sous licence Apache 2.0.
  • La licence s’applique uniquement aux fichiers source de ce dépôt et aux poids du modèle Grok-1.

L’avis de GN⁺

  • Grok-1 est un modèle doté d’un très grand nombre de paramètres, offrant aux chercheurs et ingénieurs en machine learning une bonne opportunité d’expérimenter avec des ressources de calcul haute performance.
  • En adoptant la licence open source Apache 2.0, la communauté peut utiliser, modifier et redistribuer librement le modèle, ce qui peut favoriser la collaboration et l’innovation.
  • Comme le modèle est extrêmement volumineux, son expérimentation pratique exige d’importantes ressources de calcul, ce qui peut en limiter l’accessibilité.
  • L’implémentation inefficace des couches MoE peut être utile dans un cadre de recherche, mais pour une application dans des produits ou services réels, il faudra rechercher une implémentation optimisée.
  • Parmi les autres projets open source offrant des capacités similaires figurent TensorFlow de Google et PyTorch de Facebook, qui peuvent eux aussi servir à expérimenter avec des modèles de grande taille.

1 commentaires

 
GN⁺ 2024-03-18
Réactions sur Hacker News
  • Le modèle 8x86B semble être le plus grand modèle ouvert à ce jour. Il serait intéressant de savoir avec combien de tokens ce modèle a été entraîné.

    • C’est un modèle de base entraîné sur de très grands volumes de données textuelles, sans réglage fin pour des tâches spécifiques.
    • La version montrée en avant-première sur Twitter serait probablement un modèle ajusté par instruction, qui se comporte différemment des poids bruts.
  • Pourquoi voudrait-on utiliser ce modèle plutôt qu’une alternative open source comme Mistral ?

  • Est-ce le premier grand modèle à prendre en charge le FP8 natif ? Cela semble pouvoir être un gros avantage lorsque le matériel le prend en charge, et je me demande pourquoi personne ne l’avait encore fait jusque-là.

  • Quelles langues ce modèle prend-il en charge ?

  • Billet de blog : Grok-OS

    • 86B paramètres actifs sur 314B au total.
    • 2 experts activés sur un mélange de 8 experts.
    • Les poids et l’architecture sont sous licence Apache 2.0.
  • Billet de blog publié l’an dernier : Grok

    • Inclut des benchmarks comparés à Claude 2, GPT-3.5 et GPT-4.
    • Capacités comparables à GPT-3.5, Mixtral et Qwen-1.5-72B, mais nettement plus grand que les modèles à poids ouverts.
  • À quel moment atteindra-t-on la limite supérieure, ou le point de rendement décroissant, en termes de nombre de paramètres et de mélange d’experts ?

  • Y a-t-il une model card quelque part ? J’aimerais savoir avec quoi ce modèle a été entraîné.

  • Point subtil : Musk a parlé d’"open source", mais au final on obtient plutôt des "poids ouverts" (cela dit, c’est déjà bien mieux que rien, donc j’en suis très reconnaissant).

  • L’autre dépôt n’est qu’un fork de Qdrant.