Présentation du nouveau LLM open source (Large Language Model) de MistralAI
Réglages notables dans le fichier params.json :
hidden_dim / dim = 14336/4096 => expansion MLP de 3,5x
n_heads / n_kv_heads = 32/8 => multi-query 4x
"moe" => 8x, top 2, via Mixture of Experts
Le code associé est disponible sur GitHub
Pas de vidéo promotionnelle survendue sur la révolution de l'IA
Beaucoup d'activité dans l'IA en ce moment, avec l'approche de NeurIPS, une grande conférence de deep learning
Autres nouvelles LLM :
Mistral/Yi domine les autres modèles sur le leaderboard Hugging Face grâce à des modèles fine-tunés avec une nouvelle technique appelée « neural alignment »
Les modèles 7B « battent » la plupart des modèles 70B
Le modèle 34B en test semble très bon
Si cette technique est appliquée à Mistral Moe, cela pourrait donner un modèle exceptionnel
Un OSS capable de tourner sur un desktop pourrait marquer un tournant important en défiant GPT-4
Approche de Mistral :
Mistral ne semble pas trop se soucier des explications, mais ce style inspire davantage confiance que les annonces corporate très polies de Google
Style d'annonce minimaliste :
Préférence pour une annonce simple, façon années 90
Spécifications du modèle Mistral :
Publication du fichier params.json avec une architecture Mixture of Experts
Comparaison entre Mistral et Google sur la manière d'annoncer :
La manière dont Mistral présente son modèle contraste avec l'annonce de Gemini par Google
Mistral semble avoir été entraîné sur la base de Megablocks de Stanford
Stratégie marketing de Mistral :
Là où d'autres entreprises misent surtout sur des landing pages et des vidéos promotionnelles, Mistral publie simplement le modèle
Informations rendues publiques par Mistral :
Utilisation d'une architecture Mixture of Experts
8 experts de 7B paramètres
96 Go de poids au total, donc inutilisable sur un GPU domestique classique
1 commentaires
Commentaires Hacker News
Avis d'Andrej Karpathy :
params.json:hidden_dim / dim = 14336/4096=> expansion MLP de 3,5xn_heads / n_kv_heads = 32/8=> multi-query 4x"moe"=> 8x, top 2, via Mixture of ExpertsAutres nouvelles LLM :
Approche de Mistral :
Style d'annonce minimaliste :
Spécifications du modèle Mistral :
params.jsonavec une architecture Mixture of ExpertsComparaison entre Mistral et Google sur la manière d'annoncer :
Stratégie marketing de Mistral :
Informations rendues publiques par Mistral :