Mistral : modèle « Mixtral » 8x7B 32k [aimant]

(twitter.com/MistralAI)

2 points par GN⁺ 2023-12-09 | 1 commentaires | Partager sur WhatsApp

1 commentaires

GN⁺ 2023-12-09

Avis sur Hacker News

Dans d'autres actualités LLM, des modèles Mistral/Yi fine-tunés, entraînés avec une nouvelle technique appelée neural alignment encore non documentée, dominent largement les autres modèles sur le leaderboard de Hugging Face
Le 7B “bat” la plupart des modèles 70B, et le 34B en test semble lui aussi très bon
https://huggingface.co/fblgit/una-xaberius-34b-v1beta
https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
En théorie, cette technique pourrait aussi être appliquée à Mistral MoE ; si le gain est similaire à celui du Mistral 7B standard et que Mistral MoE est bon en soi, le résultat pourrait être un modèle assez terrifiant
C'est peut-être le point d'inflexion où les modèles open source capables de tourner sur un desktop commencent vraiment à talonner GPT-4
- J'ai essayé la version 7B, et elle donne vraiment une impression différente de tout ce que j'avais testé avant
  Elle a su expliquer un fichier Docker Compose et a même généré un composant simple pour une application Vue
  En poussant un peu avec des questions sur l'exemple, elle est restée étonnamment cohérente et concentrée sur toute la conversation, et distinguait bien quand on passait à un nouveau sujet ou quand on faisait référence à ce qui précédait, même sans effacer le contexte
  En particulier, quand j'ai demandé “What does following mean [docker compose contenu]”, cybertron-7b a répondu en reprenant ma formulation textuellement, du style “dans la configuration YAML fournie, ‘following’ désigne la spécification des dépendances” ; c'est la première fois que je vois un modèle citer ainsi avec précision une expression employée dans la conversation
- Intrigué, j'ai créé un ollama modelfile pour la plus petite variante à partir de la version GGUF de TheBloke[1], et pour un modèle aussi petit il donne vraiment assez fortement une impression de GPT-4
  Il me semble plus cohérent que openhermes2.5-mistral, qui était jusque-là mon principal LLM local
  Si ollama est installé, on peut le lancer avec ollama run nollama/una-cybertron-7b-v2
  [1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
- Oui. UNA semble pouvoir aligner le MoE à travers plusieurs couches, experts, et presque n'importe quelle partie du réseau neuronal
  Xaberius 34B v1 “BETA” est le roi, mais ce n'est littéralement qu'une bêta pour l'instant
  Je vais maintenant me concentrer sur Mixtral, et ce côté modulaire donne l'impression d'un cadeau de Noël. Merci à @mistral d'avoir ouvert le labo
- Les benchmarks LLM ne sont-ils pas désormais au mieux dénués de sens, et au pire presque mensongers ?
- Oui. Mistral ne semble pas accorder beaucoup d'importance au fait d'affaiblir drastiquement le modèle via un “entraînement à la sécurité”
  Il pourrait donc offrir une bien meilleure performance par paramètre qu'Anthropic/Google/OpenAI, tout en restant plus pilotable
Interprétation d'Andrej Karpathy :
le nouveau LLM à poids ouverts de @MistralAI
d'après params.json, hidden_dim / dim = 14336/4096 => expansion MLP 3.5X, n_heads / n_kv_heads = 32/8 => multiquery 4X, "moe" => mixture of experts 8X top 2
Ce qui semble être le code associé :
https://github.com/mistralai/megablocks-public
Étrangement, il n'y a pas de vidéo de lancement ultra répétée et surjouée parlant de “révolution de l'IA”
Si vous vous demandez pourquoi il y a autant d'activité IA en ce moment, c'est parce que la semaine prochaine a lieu NeurIPS, la plus grande conférence sur le deep learning
https://twitter.com/karpathy/status/1733181701361451130
- Si NeurIPS a lieu la semaine prochaine, on peut donc s'attendre à de grosses annonces de plusieurs entreprises, comme de nouvelles architectures ou de nouveaux modèles ? Je ne connais pas bien la culture des conférences de recherche, donc je demande
- hidden_dim / dim = 14336/4096 => expansion MLP 3.5X et n_heads / n_kv_heads = 32/8 => 4X sont exactement les mêmes que pour Mistral-7B
- EMNLP 2023 se tient aussi en ce moment, d'où l'afflux d'annonces
Mistral semble peu investir dans les explications détaillées, mais cette approche inspire bien plus confiance dans le produit que l'annonce Gemini de Google, lisse, corporate et sans âme
- Mieux vaut publier les poids que de la documentation
  Ça me rappelle un employé de Google qui se vantait d'avoir publié les poids de Gemini, et seulement ceux d'une petite version mobile de Gemini, comme si c'était plus généreux que les autres entreprises
Une annonce grandiloquente est-elle vraiment nécessaire ? On peut faire à l'ancienne, façon années 90 : https://twitter.com/erhartford/status/1733159666417545641/ph...
- Ça paraît bien plus audacieux et confiant que de sortir une page marketing ou une vidéo manifestement truquée et irréaliste
Ça ressemble à un mixture of experts (MoE), et params.json est le suivant
{ "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } }
- Dans ce contexte, qu'est-ce qu'un expert au juste ?
- Je ne vois pas le code là-dedans ; quel runtime peut charger ces poids ?
Les objectifs de ces entreprises ne sont pas exactement les mêmes, mais c'est assez drôle de comparer l'annonce de ce modèle à celle de Gemini par Google deux jours plus tôt
Cela contraste fortement avec l’approche de Google, qui avait « seulement une démo et pas de modèle », plus tôt cette semaine
Cela semble avoir été entraîné avec Megablocks de Stanford : https://github.com/mistralai/megablocks-public
C’est peut-être polémique, mais je pense que Mistral 7B est en réalité l’état de l’art des LLM
ChatGPT 4 est certes impressionnant, et j’y suis abonné depuis le premier jour, mais il tourne dans d’immenses fermes de serveurs lointaines et reste en grande partie une boîte noire
Mistral est petit, étonnamment cohérent et utile sur les questions générales comme sur le code par rapport à sa taille, sans censure, et c’est un bond qu’on aurait eu du mal à croire possible il y a un an
On peut le faire tourner à 12 tok/s sur un MacBook Air, et j’ai hâte de l’essayer sur un desktop
- À l’échelle de ce qui peut tourner sur un MacBook Air, c’est l’état de l’art, mais pas celui de l’ensemble des LLM ni de l’open source
  Yi 34B et Llama2 70B font encore mieux
- Si 50 % des informations consommées sur Internet ont été créées dans les dernières 24 heures, les petits modèles peuvent avoir un avantage assez important sur les gros
  Si l’on pouvait continuer à réentraîner ou à affiner des LLM ou des SmallLM chaque semaine ou chaque jour pour refléter les informations les plus récentes, les vieux modèles entraînés il y a 1 ou 2 ans auraient du mal à suivre
  Je ne connais pas la licence, mais OpenAI pourrait très bien intégrer un petit modèle comme Mistral7B dans la stack GPT, le réentraîner depuis zéro chaque semaine, puis le facturer au même prix que GPT-4
  Même si les performances sont moindres, il y aura sûrement des utilisateurs qui préféreront un modèle plus à jour
- D’accord. Mistral 7B est vraiment étonnamment bon
  Les versions Intel ou les modèles fine-tunés comme Berkeley Starling donnent l’impression d’être assez proches de gpt3.5T alors qu’ils ne font que 7B
  J’attendais vraiment un Mistral 13B, mais je ne sais pas si ce MoE tournera sur une 3090 de 24 Go
  J’espère que la quantification, l’offloading et les techniques à venir le rendront exploitable
- 12 tok/s sur un MacBook Air, ça paraît un peu faible
  Tu utilises l’accélération GPU Metal dans llama.cpp ? Je n’ai pas de MacBook, mais d’après les benchmarks de llama.cpp, avec l’accélération GPU on dirait qu’on peut monter à presque 30 tok/s
- C’est vraiment le cas. Au minimum, il donne l’impression d’être du niveau de llama2 13b
  Si un mistral 70b avait existé et avait été meilleur que llama2 70b dans les mêmes proportions que ce que la version 7b a montré face à llama2, il aurait clairement été à un niveau comparable à gpt3.5
Il existe maintenant une version Hugging Face qui fonctionne de manière expérimentale : https://huggingface.co/DiscoResearch/mixtral-7b-8expert
Google fait de fausses démos, Mistral se contente d’un seul lien magnet

Mistral : modèle « Mixtral » 8x7B 32k [aimant]

À lire aussi

1 commentaires

Avis sur Hacker News