- Databricks a dévoilé DBRX, un nouveau LLM open source à usage général
- Il établit un nouveau meilleur niveau parmi les LLM open source sur les benchmarks standard et apporte à la communauté open source et aux entreprises des capacités jusque-là limitées aux API de modèles fermés
- Il dépasse GPT-3.5 et peut rivaliser avec Gemini 1.0 Pro
- Il surpasse aussi, sur le code, des modèles spécialisés comme CodeLLaMA-70B
- DBRX montre des améliorations marquées en performances d'entraînement et d'inférence
- Il améliore l'efficacité grâce à une architecture Mixture of Experts (MoE) finement granularisée
- Sa vitesse d'inférence est jusqu'à 2 fois plus rapide que celle de LLaMA2-70B, et sa taille est environ 40 % plus petite que Grok-1
Architecture de DBRX
- DBRX est un grand modèle de langage (LLM) basé sur un transformer, de type decoder-only, entraîné avec la prédiction du token suivant
- Sur 132B de paramètres au total, 36B sont activés, et le modèle a été pré-entraîné sur 12T tokens de données textuelles et de code
- DBRX est plus finement granularisé que d'autres modèles MoE open source, ce qui semble améliorer la qualité du modèle
Qualité sur les benchmarks
- DBRX Instruct est un modèle de premier plan sur les benchmarks composites, de programmation, de mathématiques et sur MMLU
- DBRX Instruct surpasse tous les modèles chat ou instruction-tuned sur les benchmarks standard
Comparaison avec les modèles fermés
- DBRX Instruct dépasse GPT-3.5 et reste compétitif face à Gemini 1.0 Pro et Mistral Medium
- DBRX Instruct surpasse GPT-3.5 en connaissances générales, raisonnement de bon sens, programmation et raisonnement mathématique
Qualité sur les tâches à long contexte et en RAG
- DBRX Instruct a été entraîné avec une fenêtre de contexte allant jusqu'à 32K tokens.
- DBRX Instruct a été comparé aux dernières versions des API GPT-3.5 Turbo et GPT-4 Turbo sur des benchmarks de long contexte.
- DBRX Instruct obtient de meilleures performances que GPT-3.5 Turbo pour toutes les longueurs de contexte et sur toutes les parties des séquences.
Efficacité de l'entraînement
- L'architecture MoE de DBRX et l'ensemble du pipeline d'entraînement valident l'efficacité de l'entraînement.
- L'architecture MoE de DBRX atteint une haute qualité tout en réduisant les FLOP nécessaires à l'entraînement.
Efficacité de l'inférence
- DBRX montre un fort débit d'inférence sur une infrastructure optimisée utilisant NVIDIA TensorRT-LLM.
- Les modèles MoE ont généralement une vitesse d'inférence élevée par rapport à leur nombre total de paramètres.
Comment DBRX a été construit
- DBRX a été entraîné avec des NVIDIA H100 et construit à l'aide des outils de Databricks.
- DBRX s'inscrit dans la continuité des projets MPT et Dolly de Databricks, avec des milliers de LLM entraînés en collaboration avec des clients.
Démarrer avec DBRX sur Databricks
- DBRX peut être utilisé facilement via l'API Databricks Mosaic AI Foundation Model.
- DBRX peut être téléchargé depuis Databricks Marketplace puis déployé pour le model serving.
Conclusion
- Databricks estime que toutes les entreprises devraient pouvoir garder le contrôle de leurs données et de leur destin dans l'univers de la GenAI.
- DBRX est un élément clé de la prochaine génération de produits GenAI de Databricks.
Contributions
- Le développement de DBRX a été mené par l'équipe Mosaic, avec la collaboration de différents départements de Databricks.
Avis de GN⁺
- DBRX est un nouveau modèle de langage open source capable de rivaliser avec les modèles GPT existants, et il devrait notamment afficher d'excellentes performances en génération de code et sur les tâches de programmation.
- Grâce à l'architecture MoE, DBRX semble avoir fortement amélioré son efficacité en vitesse d'inférence et en taille de modèle. Cela pourrait permettre d'utiliser un modèle très performant même dans des environnements aux ressources limitées.
- L'approche open source de DBRX offre aux chercheurs et aux développeurs la possibilité d'expérimenter librement le modèle et de l'améliorer. Cela pourrait constituer une contribution majeure pour la communauté IA.
- L'API et les outils d'intégration proposés par DBRX aident les entreprises à développer et déployer plus facilement leurs propres modèles de langage. Cela pourrait les aider à renforcer leur compétitivité grâce aux technologies d'IA.
- La sortie de DBRX pourrait marquer une étape importante dans l'évolution des modèles de langage open source, et il sera intéressant de voir comment ce modèle progressera et sera appliqué dans différents domaines à l'avenir.
1 commentaires
Réactions sur Hacker News
Modèles actuellement dignes d’intérêt :
Fiche du modèle et besoins en ressources :
Convergence des grands modèles de langage (LLM) :
Attentes autour de la quantification mixte et du déchargement MoE :
Intérêt commercial pour Databricks :
Comparaison des graphiques et évaluation :
Projet d’achat d’un nouveau GPU et besoins en VRAM :
Mécontentement concernant l’approbation du modèle de base :
Amélioration de l’efficacité de l’entraînement :
Possibilité de contamination des évaluations de code :