DBRX - le nouvel LLM open source de pointe (SOTA)

(databricks.com)

16 points par GN⁺ 2024-03-28 | 1 commentaires | Partager sur WhatsApp

Databricks a dévoilé DBRX, un nouveau LLM open source à usage général
Il établit un nouveau meilleur niveau parmi les LLM open source sur les benchmarks standard et apporte à la communauté open source et aux entreprises des capacités jusque-là limitées aux API de modèles fermés
- Il dépasse GPT-3.5 et peut rivaliser avec Gemini 1.0 Pro
- Il surpasse aussi, sur le code, des modèles spécialisés comme CodeLLaMA-70B
DBRX montre des améliorations marquées en performances d'entraînement et d'inférence
- Il améliore l'efficacité grâce à une architecture Mixture of Experts (MoE) finement granularisée
- Sa vitesse d'inférence est jusqu'à 2 fois plus rapide que celle de LLaMA2-70B, et sa taille est environ 40 % plus petite que Grok-1

Architecture de DBRX

DBRX est un grand modèle de langage (LLM) basé sur un transformer, de type decoder-only, entraîné avec la prédiction du token suivant
Sur 132B de paramètres au total, 36B sont activés, et le modèle a été pré-entraîné sur 12T tokens de données textuelles et de code
DBRX est plus finement granularisé que d'autres modèles MoE open source, ce qui semble améliorer la qualité du modèle

Qualité sur les benchmarks

DBRX Instruct est un modèle de premier plan sur les benchmarks composites, de programmation, de mathématiques et sur MMLU
DBRX Instruct surpasse tous les modèles chat ou instruction-tuned sur les benchmarks standard

Comparaison avec les modèles fermés

DBRX Instruct dépasse GPT-3.5 et reste compétitif face à Gemini 1.0 Pro et Mistral Medium
DBRX Instruct surpasse GPT-3.5 en connaissances générales, raisonnement de bon sens, programmation et raisonnement mathématique

Qualité sur les tâches à long contexte et en RAG

DBRX Instruct a été entraîné avec une fenêtre de contexte allant jusqu'à 32K tokens.
DBRX Instruct a été comparé aux dernières versions des API GPT-3.5 Turbo et GPT-4 Turbo sur des benchmarks de long contexte.
DBRX Instruct obtient de meilleures performances que GPT-3.5 Turbo pour toutes les longueurs de contexte et sur toutes les parties des séquences.

Efficacité de l'entraînement

L'architecture MoE de DBRX et l'ensemble du pipeline d'entraînement valident l'efficacité de l'entraînement.
L'architecture MoE de DBRX atteint une haute qualité tout en réduisant les FLOP nécessaires à l'entraînement.

Efficacité de l'inférence

DBRX montre un fort débit d'inférence sur une infrastructure optimisée utilisant NVIDIA TensorRT-LLM.
Les modèles MoE ont généralement une vitesse d'inférence élevée par rapport à leur nombre total de paramètres.

Comment DBRX a été construit

DBRX a été entraîné avec des NVIDIA H100 et construit à l'aide des outils de Databricks.
DBRX s'inscrit dans la continuité des projets MPT et Dolly de Databricks, avec des milliers de LLM entraînés en collaboration avec des clients.

Démarrer avec DBRX sur Databricks

DBRX peut être utilisé facilement via l'API Databricks Mosaic AI Foundation Model.
DBRX peut être téléchargé depuis Databricks Marketplace puis déployé pour le model serving.

Conclusion

Databricks estime que toutes les entreprises devraient pouvoir garder le contrôle de leurs données et de leur destin dans l'univers de la GenAI.
DBRX est un élément clé de la prochaine génération de produits GenAI de Databricks.

Contributions

Le développement de DBRX a été mené par l'équipe Mosaic, avec la collaboration de différents départements de Databricks.

Avis de GN⁺

DBRX est un nouveau modèle de langage open source capable de rivaliser avec les modèles GPT existants, et il devrait notamment afficher d'excellentes performances en génération de code et sur les tâches de programmation.
Grâce à l'architecture MoE, DBRX semble avoir fortement amélioré son efficacité en vitesse d'inférence et en taille de modèle. Cela pourrait permettre d'utiliser un modèle très performant même dans des environnements aux ressources limitées.
L'approche open source de DBRX offre aux chercheurs et aux développeurs la possibilité d'expérimenter librement le modèle et de l'améliorer. Cela pourrait constituer une contribution majeure pour la communauté IA.
L'API et les outils d'intégration proposés par DBRX aident les entreprises à développer et déployer plus facilement leurs propres modèles de langage. Cela pourrait les aider à renforcer leur compétitivité grâce aux technologies d'IA.
La sortie de DBRX pourrait marquer une étape importante dans l'évolution des modèles de langage open source, et il sera intéressant de voir comment ce modèle progressera et sera appliqué dans différents domaines à l'avenir.

1 commentaires

GN⁺ 2024-03-28

Réactions sur Hacker News

Modèles actuellement dignes d’intérêt :
- Miqu 70B : pour la conversation générale
- Deepseed 33B : pour le code
- Yi 34B : pour la conversation avec plus de 32K de contexte
- Il existe aussi des versions fine-tunées de ces modèles
- Il existe d’autres modèles dans la plage 34B-70B, mais les modèles Qwen ne sont pas impressionnants
- Les modèles Llama 70B, Mixtral et Grok apparaissent dans les graphiques, mais il est difficile de les considérer comme l’état de l’art (SOTA) le plus récent ; en revanche, Mixtral excelle en vitesse avec une taille de lot de 1
Fiche du modèle et besoins en ressources :
- Le modèle nécessite environ 264 Go de RAM
- Interrogation sur le moment où l’on passera d’un suivi du nombre de paramètres à un suivi du total (RAM GPU + RAM CPU) et des métriques d’évaluation
- Par exemple, un modèle de 7B paramètres en float32 a probablement de meilleures performances que le même modèle en float4
- Il existe des cas où l’on quantifie de bons modèles récents pour qu’ils tiennent sur un seul GPU, mais un modèle quantifié est un modèle différent de l’original, donc il faut relancer les métriques
Convergence des grands modèles de langage (LLM) :
- Des éléments indiquent que tous les modèles LLM convergent vers un certain point lorsqu’ils sont entraînés sur les mêmes données
- Les affirmations sur les performances par tâche restent de simples affirmations ; la prochaine itération de Llama ou de Mixtral convergera
- Les LLM semblent évoluer comme Linux/Windows ou iOS/Android, sans grandes différences au niveau du modèle de base
Attentes autour de la quantification mixte et du déchargement MoE :
- Avec Mixed Quantization with MQQ et le MoE Offloading, il a été possible d’exécuter Mistral 8x7B sur une rtx3080 avec 10 Go de VRAM
- Cette méthode pourrait aussi s’appliquer à DBRX et réduire fortement les besoins en VRAM
Intérêt commercial pour Databricks :
- Curiosité quant aux bénéfices business que Databricks pourrait tirer d’un investissement de plusieurs millions de dollars dans un LLM open
Comparaison des graphiques et évaluation :
- Mettre le score Human Eval de LLaMa2 dans le graphique sans le comparer à Code Llama Instruct 70b est un crime contre les graphiques
- DBRX ne dépasse pas massivement le 67.8 de Code Llama Instruct, mais reste excellent
Projet d’achat d’un nouveau GPU et besoins en VRAM :
- Question de savoir si un GPU 16 Go de VRAM peut bien faire tourner un modèle de 70 Go, et s’il le fait sensiblement mieux qu’un GPU 12 Go de VRAM
- Ollama fonctionne bien en local, et mixtral (7B, 3.4GB) tourne bien sur une 1080ti, mais la version 24.6GB est un peu lente et le temps de démarrage est nettement perceptible
Mécontentement concernant l’approbation du modèle de base :
- L’approbation du modèle de base ne donne pas du tout une impression d’ouverture
- Beaucoup de gens attendent une possibilité de téléchargement, alors que le modèle instruct est approuvé immédiatement
- Le modèle de base est plus intéressant pour le fine-tuning
Amélioration de l’efficacité de l’entraînement :
- Il est indiqué que le pipeline de pré-entraînement des LLM est devenu presque 4 fois plus efficace en calcul au cours des 10 derniers mois
- Comme le coût d’entraînement est très élevé, ces améliorations sont bienvenues, et l’on s’attend à ce qu’elles suivent la loi de Moore
Possibilité de contamination des évaluations de code :
- Les évaluations de code peuvent être contaminées par les données d’entraînement
- Question sur une méthode standard pour éviter cette inflation des scores

DBRX - le nouvel LLM open source de pointe (SOTA)

Architecture de DBRX

Qualité sur les benchmarks

Comparaison avec les modèles fermés

Qualité sur les tâches à long contexte et en RAG

Efficacité de l'entraînement

Efficacité de l'inférence

Comment DBRX a été construit

Démarrer avec DBRX sur Databricks

Conclusion

Contributions

Avis de GN⁺

À lire aussi

1 commentaires

Réactions sur Hacker News