16 points par GN⁺ 2024-03-28 | 1 commentaires | Partager sur WhatsApp
  • Databricks a dévoilé DBRX, un nouveau LLM open source à usage général
  • Il établit un nouveau meilleur niveau parmi les LLM open source sur les benchmarks standard et apporte à la communauté open source et aux entreprises des capacités jusque-là limitées aux API de modèles fermés
    • Il dépasse GPT-3.5 et peut rivaliser avec Gemini 1.0 Pro
    • Il surpasse aussi, sur le code, des modèles spécialisés comme CodeLLaMA-70B
  • DBRX montre des améliorations marquées en performances d'entraînement et d'inférence
    • Il améliore l'efficacité grâce à une architecture Mixture of Experts (MoE) finement granularisée
    • Sa vitesse d'inférence est jusqu'à 2 fois plus rapide que celle de LLaMA2-70B, et sa taille est environ 40 % plus petite que Grok-1

Architecture de DBRX

  • DBRX est un grand modèle de langage (LLM) basé sur un transformer, de type decoder-only, entraîné avec la prédiction du token suivant
  • Sur 132B de paramètres au total, 36B sont activés, et le modèle a été pré-entraîné sur 12T tokens de données textuelles et de code
  • DBRX est plus finement granularisé que d'autres modèles MoE open source, ce qui semble améliorer la qualité du modèle

Qualité sur les benchmarks

  • DBRX Instruct est un modèle de premier plan sur les benchmarks composites, de programmation, de mathématiques et sur MMLU
  • DBRX Instruct surpasse tous les modèles chat ou instruction-tuned sur les benchmarks standard

Comparaison avec les modèles fermés

  • DBRX Instruct dépasse GPT-3.5 et reste compétitif face à Gemini 1.0 Pro et Mistral Medium
  • DBRX Instruct surpasse GPT-3.5 en connaissances générales, raisonnement de bon sens, programmation et raisonnement mathématique

Qualité sur les tâches à long contexte et en RAG

  • DBRX Instruct a été entraîné avec une fenêtre de contexte allant jusqu'à 32K tokens.
  • DBRX Instruct a été comparé aux dernières versions des API GPT-3.5 Turbo et GPT-4 Turbo sur des benchmarks de long contexte.
  • DBRX Instruct obtient de meilleures performances que GPT-3.5 Turbo pour toutes les longueurs de contexte et sur toutes les parties des séquences.

Efficacité de l'entraînement

  • L'architecture MoE de DBRX et l'ensemble du pipeline d'entraînement valident l'efficacité de l'entraînement.
  • L'architecture MoE de DBRX atteint une haute qualité tout en réduisant les FLOP nécessaires à l'entraînement.

Efficacité de l'inférence

  • DBRX montre un fort débit d'inférence sur une infrastructure optimisée utilisant NVIDIA TensorRT-LLM.
  • Les modèles MoE ont généralement une vitesse d'inférence élevée par rapport à leur nombre total de paramètres.

Comment DBRX a été construit

  • DBRX a été entraîné avec des NVIDIA H100 et construit à l'aide des outils de Databricks.
  • DBRX s'inscrit dans la continuité des projets MPT et Dolly de Databricks, avec des milliers de LLM entraînés en collaboration avec des clients.

Démarrer avec DBRX sur Databricks

  • DBRX peut être utilisé facilement via l'API Databricks Mosaic AI Foundation Model.
  • DBRX peut être téléchargé depuis Databricks Marketplace puis déployé pour le model serving.

Conclusion

  • Databricks estime que toutes les entreprises devraient pouvoir garder le contrôle de leurs données et de leur destin dans l'univers de la GenAI.
  • DBRX est un élément clé de la prochaine génération de produits GenAI de Databricks.

Contributions

  • Le développement de DBRX a été mené par l'équipe Mosaic, avec la collaboration de différents départements de Databricks.

Avis de GN⁺

  • DBRX est un nouveau modèle de langage open source capable de rivaliser avec les modèles GPT existants, et il devrait notamment afficher d'excellentes performances en génération de code et sur les tâches de programmation.
  • Grâce à l'architecture MoE, DBRX semble avoir fortement amélioré son efficacité en vitesse d'inférence et en taille de modèle. Cela pourrait permettre d'utiliser un modèle très performant même dans des environnements aux ressources limitées.
  • L'approche open source de DBRX offre aux chercheurs et aux développeurs la possibilité d'expérimenter librement le modèle et de l'améliorer. Cela pourrait constituer une contribution majeure pour la communauté IA.
  • L'API et les outils d'intégration proposés par DBRX aident les entreprises à développer et déployer plus facilement leurs propres modèles de langage. Cela pourrait les aider à renforcer leur compétitivité grâce aux technologies d'IA.
  • La sortie de DBRX pourrait marquer une étape importante dans l'évolution des modèles de langage open source, et il sera intéressant de voir comment ce modèle progressera et sera appliqué dans différents domaines à l'avenir.

1 commentaires

 
GN⁺ 2024-03-28
Réactions sur Hacker News
  • Modèles actuellement dignes d’intérêt :

    • Miqu 70B : pour la conversation générale
    • Deepseed 33B : pour le code
    • Yi 34B : pour la conversation avec plus de 32K de contexte
    • Il existe aussi des versions fine-tunées de ces modèles
    • Il existe d’autres modèles dans la plage 34B-70B, mais les modèles Qwen ne sont pas impressionnants
    • Les modèles Llama 70B, Mixtral et Grok apparaissent dans les graphiques, mais il est difficile de les considérer comme l’état de l’art (SOTA) le plus récent ; en revanche, Mixtral excelle en vitesse avec une taille de lot de 1
  • Fiche du modèle et besoins en ressources :

    • Le modèle nécessite environ 264 Go de RAM
    • Interrogation sur le moment où l’on passera d’un suivi du nombre de paramètres à un suivi du total (RAM GPU + RAM CPU) et des métriques d’évaluation
    • Par exemple, un modèle de 7B paramètres en float32 a probablement de meilleures performances que le même modèle en float4
    • Il existe des cas où l’on quantifie de bons modèles récents pour qu’ils tiennent sur un seul GPU, mais un modèle quantifié est un modèle différent de l’original, donc il faut relancer les métriques
  • Convergence des grands modèles de langage (LLM) :

    • Des éléments indiquent que tous les modèles LLM convergent vers un certain point lorsqu’ils sont entraînés sur les mêmes données
    • Les affirmations sur les performances par tâche restent de simples affirmations ; la prochaine itération de Llama ou de Mixtral convergera
    • Les LLM semblent évoluer comme Linux/Windows ou iOS/Android, sans grandes différences au niveau du modèle de base
  • Attentes autour de la quantification mixte et du déchargement MoE :

    • Avec Mixed Quantization with MQQ et le MoE Offloading, il a été possible d’exécuter Mistral 8x7B sur une rtx3080 avec 10 Go de VRAM
    • Cette méthode pourrait aussi s’appliquer à DBRX et réduire fortement les besoins en VRAM
  • Intérêt commercial pour Databricks :

    • Curiosité quant aux bénéfices business que Databricks pourrait tirer d’un investissement de plusieurs millions de dollars dans un LLM open
  • Comparaison des graphiques et évaluation :

    • Mettre le score Human Eval de LLaMa2 dans le graphique sans le comparer à Code Llama Instruct 70b est un crime contre les graphiques
    • DBRX ne dépasse pas massivement le 67.8 de Code Llama Instruct, mais reste excellent
  • Projet d’achat d’un nouveau GPU et besoins en VRAM :

    • Question de savoir si un GPU 16 Go de VRAM peut bien faire tourner un modèle de 70 Go, et s’il le fait sensiblement mieux qu’un GPU 12 Go de VRAM
    • Ollama fonctionne bien en local, et mixtral (7B, 3.4GB) tourne bien sur une 1080ti, mais la version 24.6GB est un peu lente et le temps de démarrage est nettement perceptible
  • Mécontentement concernant l’approbation du modèle de base :

    • L’approbation du modèle de base ne donne pas du tout une impression d’ouverture
    • Beaucoup de gens attendent une possibilité de téléchargement, alors que le modèle instruct est approuvé immédiatement
    • Le modèle de base est plus intéressant pour le fine-tuning
  • Amélioration de l’efficacité de l’entraînement :

    • Il est indiqué que le pipeline de pré-entraînement des LLM est devenu presque 4 fois plus efficace en calcul au cours des 10 derniers mois
    • Comme le coût d’entraînement est très élevé, ces améliorations sont bienvenues, et l’on s’attend à ce qu’elles suivent la loi de Moore
  • Possibilité de contamination des évaluations de code :

    • Les évaluations de code peuvent être contaminées par les données d’entraînement
    • Question sur une méthode standard pour éviter cette inflation des scores