Dans d'autres actualités LLM, des modèles Mistral/Yi fine-tunés, entraînés avec une nouvelle technique appelée neural alignment encore non documentée, dominent largement les autres modèles sur le leaderboard de Hugging Face
Le 7B “bat” la plupart des modèles 70B, et le 34B en test semble lui aussi très bon https://huggingface.co/fblgit/una-xaberius-34b-v1beta https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
En théorie, cette technique pourrait aussi être appliquée à Mistral MoE ; si le gain est similaire à celui du Mistral 7B standard et que Mistral MoE est bon en soi, le résultat pourrait être un modèle assez terrifiant
C'est peut-être le point d'inflexion où les modèles open source capables de tourner sur un desktop commencent vraiment à talonner GPT-4
J'ai essayé la version 7B, et elle donne vraiment une impression différente de tout ce que j'avais testé avant
Elle a su expliquer un fichier Docker Compose et a même généré un composant simple pour une application Vue
En poussant un peu avec des questions sur l'exemple, elle est restée étonnamment cohérente et concentrée sur toute la conversation, et distinguait bien quand on passait à un nouveau sujet ou quand on faisait référence à ce qui précédait, même sans effacer le contexte
En particulier, quand j'ai demandé “What does following mean [docker compose contenu]”, cybertron-7b a répondu en reprenant ma formulation textuellement, du style “dans la configuration YAML fournie, ‘following’ désigne la spécification des dépendances” ; c'est la première fois que je vois un modèle citer ainsi avec précision une expression employée dans la conversation
Intrigué, j'ai créé un ollama modelfile pour la plus petite variante à partir de la version GGUF de TheBloke[1], et pour un modèle aussi petit il donne vraiment assez fortement une impression de GPT-4
Il me semble plus cohérent que openhermes2.5-mistral, qui était jusque-là mon principal LLM local
Si ollama est installé, on peut le lancer avec ollama run nollama/una-cybertron-7b-v2
[1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
Oui. UNA semble pouvoir aligner le MoE à travers plusieurs couches, experts, et presque n'importe quelle partie du réseau neuronal
Xaberius 34B v1 “BETA” est le roi, mais ce n'est littéralement qu'une bêta pour l'instant
Je vais maintenant me concentrer sur Mixtral, et ce côté modulaire donne l'impression d'un cadeau de Noël. Merci à @mistral d'avoir ouvert le labo
Les benchmarks LLM ne sont-ils pas désormais au mieux dénués de sens, et au pire presque mensongers ?
Oui. Mistral ne semble pas accorder beaucoup d'importance au fait d'affaiblir drastiquement le modèle via un “entraînement à la sécurité”
Il pourrait donc offrir une bien meilleure performance par paramètre qu'Anthropic/Google/OpenAI, tout en restant plus pilotable
Interprétation d'Andrej Karpathy :
le nouveau LLM à poids ouverts de @MistralAI
d'après params.json, hidden_dim / dim = 14336/4096 => expansion MLP 3.5X, n_heads / n_kv_heads = 32/8 => multiquery 4X, "moe" => mixture of experts 8X top 2
Ce qui semble être le code associé : https://github.com/mistralai/megablocks-public
Étrangement, il n'y a pas de vidéo de lancement ultra répétée et surjouée parlant de “révolution de l'IA”
Si vous vous demandez pourquoi il y a autant d'activité IA en ce moment, c'est parce que la semaine prochaine a lieu NeurIPS, la plus grande conférence sur le deep learning https://twitter.com/karpathy/status/1733181701361451130
Si NeurIPS a lieu la semaine prochaine, on peut donc s'attendre à de grosses annonces de plusieurs entreprises, comme de nouvelles architectures ou de nouveaux modèles ? Je ne connais pas bien la culture des conférences de recherche, donc je demande
hidden_dim / dim = 14336/4096 => expansion MLP 3.5X et n_heads / n_kv_heads = 32/8 => 4X sont exactement les mêmes que pour Mistral-7B
EMNLP 2023 se tient aussi en ce moment, d'où l'afflux d'annonces
Mistral semble peu investir dans les explications détaillées, mais cette approche inspire bien plus confiance dans le produit que l'annonce Gemini de Google, lisse, corporate et sans âme
Mieux vaut publier les poids que de la documentation
Ça me rappelle un employé de Google qui se vantait d'avoir publié les poids de Gemini, et seulement ceux d'une petite version mobile de Gemini, comme si c'était plus généreux que les autres entreprises
Ça paraît bien plus audacieux et confiant que de sortir une page marketing ou une vidéo manifestement truquée et irréaliste
Ça ressemble à un mixture of experts (MoE), et params.json est le suivant { "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } }
Dans ce contexte, qu'est-ce qu'un expert au juste ?
Je ne vois pas le code là-dedans ; quel runtime peut charger ces poids ?
Les objectifs de ces entreprises ne sont pas exactement les mêmes, mais c'est assez drôle de comparer l'annonce de ce modèle à celle de Gemini par Google deux jours plus tôt
Cela contraste fortement avec l’approche de Google, qui avait « seulement une démo et pas de modèle », plus tôt cette semaine
Cela semble avoir été entraîné avec Megablocks de Stanford : https://github.com/mistralai/megablocks-public
C’est peut-être polémique, mais je pense que Mistral 7B est en réalité l’état de l’art des LLM
ChatGPT 4 est certes impressionnant, et j’y suis abonné depuis le premier jour, mais il tourne dans d’immenses fermes de serveurs lointaines et reste en grande partie une boîte noire
Mistral est petit, étonnamment cohérent et utile sur les questions générales comme sur le code par rapport à sa taille, sans censure, et c’est un bond qu’on aurait eu du mal à croire possible il y a un an
On peut le faire tourner à 12 tok/s sur un MacBook Air, et j’ai hâte de l’essayer sur un desktop
À l’échelle de ce qui peut tourner sur un MacBook Air, c’est l’état de l’art, mais pas celui de l’ensemble des LLM ni de l’open source Yi 34B et Llama2 70B font encore mieux
Si 50 % des informations consommées sur Internet ont été créées dans les dernières 24 heures, les petits modèles peuvent avoir un avantage assez important sur les gros
Si l’on pouvait continuer à réentraîner ou à affiner des LLM ou des SmallLM chaque semaine ou chaque jour pour refléter les informations les plus récentes, les vieux modèles entraînés il y a 1 ou 2 ans auraient du mal à suivre
Je ne connais pas la licence, mais OpenAI pourrait très bien intégrer un petit modèle comme Mistral7B dans la stack GPT, le réentraîner depuis zéro chaque semaine, puis le facturer au même prix que GPT-4
Même si les performances sont moindres, il y aura sûrement des utilisateurs qui préféreront un modèle plus à jour
D’accord. Mistral 7B est vraiment étonnamment bon
Les versions Intel ou les modèles fine-tunés comme Berkeley Starling donnent l’impression d’être assez proches de gpt3.5T alors qu’ils ne font que 7B
J’attendais vraiment un Mistral 13B, mais je ne sais pas si ce MoE tournera sur une 3090 de 24 Go
J’espère que la quantification, l’offloading et les techniques à venir le rendront exploitable
12 tok/s sur un MacBook Air, ça paraît un peu faible
Tu utilises l’accélération GPU Metal dans llama.cpp ? Je n’ai pas de MacBook, mais d’après les benchmarks de llama.cpp, avec l’accélération GPU on dirait qu’on peut monter à presque 30 tok/s
C’est vraiment le cas. Au minimum, il donne l’impression d’être du niveau de llama2 13b
Si un mistral 70b avait existé et avait été meilleur que llama2 70b dans les mêmes proportions que ce que la version 7b a montré face à llama2, il aurait clairement été à un niveau comparable à gpt3.5
1 commentaires
Avis sur Hacker News
Dans d'autres actualités LLM, des modèles Mistral/Yi fine-tunés, entraînés avec une nouvelle technique appelée neural alignment encore non documentée, dominent largement les autres modèles sur le leaderboard de Hugging Face
Le 7B “bat” la plupart des modèles 70B, et le 34B en test semble lui aussi très bon
https://huggingface.co/fblgit/una-xaberius-34b-v1beta
https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
En théorie, cette technique pourrait aussi être appliquée à Mistral MoE ; si le gain est similaire à celui du Mistral 7B standard et que Mistral MoE est bon en soi, le résultat pourrait être un modèle assez terrifiant
C'est peut-être le point d'inflexion où les modèles open source capables de tourner sur un desktop commencent vraiment à talonner GPT-4
Elle a su expliquer un fichier Docker Compose et a même généré un composant simple pour une application Vue
En poussant un peu avec des questions sur l'exemple, elle est restée étonnamment cohérente et concentrée sur toute la conversation, et distinguait bien quand on passait à un nouveau sujet ou quand on faisait référence à ce qui précédait, même sans effacer le contexte
En particulier, quand j'ai demandé “What does following mean [docker compose contenu]”, cybertron-7b a répondu en reprenant ma formulation textuellement, du style “dans la configuration YAML fournie, ‘following’ désigne la spécification des dépendances” ; c'est la première fois que je vois un modèle citer ainsi avec précision une expression employée dans la conversation
Il me semble plus cohérent que openhermes2.5-mistral, qui était jusque-là mon principal LLM local
Si ollama est installé, on peut le lancer avec
ollama run nollama/una-cybertron-7b-v2[1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
Xaberius 34B v1 “BETA” est le roi, mais ce n'est littéralement qu'une bêta pour l'instant
Je vais maintenant me concentrer sur Mixtral, et ce côté modulaire donne l'impression d'un cadeau de Noël. Merci à @mistral d'avoir ouvert le labo
Il pourrait donc offrir une bien meilleure performance par paramètre qu'Anthropic/Google/OpenAI, tout en restant plus pilotable
Interprétation d'Andrej Karpathy :
le nouveau LLM à poids ouverts de @MistralAI
d'après
params.json,hidden_dim / dim = 14336/4096 => expansion MLP 3.5X,n_heads / n_kv_heads = 32/8 => multiquery 4X,"moe" => mixture of experts 8X top 2Ce qui semble être le code associé :
https://github.com/mistralai/megablocks-public
Étrangement, il n'y a pas de vidéo de lancement ultra répétée et surjouée parlant de “révolution de l'IA”
Si vous vous demandez pourquoi il y a autant d'activité IA en ce moment, c'est parce que la semaine prochaine a lieu NeurIPS, la plus grande conférence sur le deep learning
https://twitter.com/karpathy/status/1733181701361451130
hidden_dim / dim = 14336/4096 => expansion MLP 3.5Xetn_heads / n_kv_heads = 32/8 => 4Xsont exactement les mêmes que pour Mistral-7BMistral semble peu investir dans les explications détaillées, mais cette approche inspire bien plus confiance dans le produit que l'annonce Gemini de Google, lisse, corporate et sans âme
Ça me rappelle un employé de Google qui se vantait d'avoir publié les poids de Gemini, et seulement ceux d'une petite version mobile de Gemini, comme si c'était plus généreux que les autres entreprises
Une annonce grandiloquente est-elle vraiment nécessaire ? On peut faire à l'ancienne, façon années 90 : https://twitter.com/erhartford/status/1733159666417545641/ph...
Ça ressemble à un mixture of experts (MoE), et
params.jsonest le suivant{ "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } }Les objectifs de ces entreprises ne sont pas exactement les mêmes, mais c'est assez drôle de comparer l'annonce de ce modèle à celle de Gemini par Google deux jours plus tôt
Cela contraste fortement avec l’approche de Google, qui avait « seulement une démo et pas de modèle », plus tôt cette semaine
Cela semble avoir été entraîné avec Megablocks de Stanford : https://github.com/mistralai/megablocks-public
C’est peut-être polémique, mais je pense que Mistral 7B est en réalité l’état de l’art des LLM
ChatGPT 4 est certes impressionnant, et j’y suis abonné depuis le premier jour, mais il tourne dans d’immenses fermes de serveurs lointaines et reste en grande partie une boîte noire
Mistral est petit, étonnamment cohérent et utile sur les questions générales comme sur le code par rapport à sa taille, sans censure, et c’est un bond qu’on aurait eu du mal à croire possible il y a un an
On peut le faire tourner à 12 tok/s sur un MacBook Air, et j’ai hâte de l’essayer sur un desktop
Yi 34B et Llama2 70B font encore mieux
Si l’on pouvait continuer à réentraîner ou à affiner des LLM ou des SmallLM chaque semaine ou chaque jour pour refléter les informations les plus récentes, les vieux modèles entraînés il y a 1 ou 2 ans auraient du mal à suivre
Je ne connais pas la licence, mais OpenAI pourrait très bien intégrer un petit modèle comme Mistral7B dans la stack GPT, le réentraîner depuis zéro chaque semaine, puis le facturer au même prix que GPT-4
Même si les performances sont moindres, il y aura sûrement des utilisateurs qui préféreront un modèle plus à jour
Les versions Intel ou les modèles fine-tunés comme Berkeley Starling donnent l’impression d’être assez proches de gpt3.5T alors qu’ils ne font que 7B
J’attendais vraiment un Mistral 13B, mais je ne sais pas si ce MoE tournera sur une 3090 de 24 Go
J’espère que la quantification, l’offloading et les techniques à venir le rendront exploitable
Tu utilises l’accélération GPU Metal dans llama.cpp ? Je n’ai pas de MacBook, mais d’après les benchmarks de llama.cpp, avec l’accélération GPU on dirait qu’on peut monter à presque 30 tok/s
Si un mistral 70b avait existé et avait été meilleur que llama2 70b dans les mêmes proportions que ce que la version 7b a montré face à llama2, il aurait clairement été à un niveau comparable à gpt3.5
Il existe maintenant une version Hugging Face qui fonctionne de manière expérimentale : https://huggingface.co/DiscoResearch/mixtral-7b-8expert
Google fait de fausses démos, Mistral se contente d’un seul lien magnet