2 points par GN⁺ 2023-12-09 | 1 commentaires | Partager sur WhatsApp

1 commentaires

 
GN⁺ 2023-12-09
Avis sur Hacker News
  • Dans d'autres actualités LLM, des modèles Mistral/Yi fine-tunés, entraînés avec une nouvelle technique appelée neural alignment encore non documentée, dominent largement les autres modèles sur le leaderboard de Hugging Face
    Le 7B “bat” la plupart des modèles 70B, et le 34B en test semble lui aussi très bon
    https://huggingface.co/fblgit/una-xaberius-34b-v1beta
    https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
    En théorie, cette technique pourrait aussi être appliquée à Mistral MoE ; si le gain est similaire à celui du Mistral 7B standard et que Mistral MoE est bon en soi, le résultat pourrait être un modèle assez terrifiant
    C'est peut-être le point d'inflexion où les modèles open source capables de tourner sur un desktop commencent vraiment à talonner GPT-4

    • J'ai essayé la version 7B, et elle donne vraiment une impression différente de tout ce que j'avais testé avant
      Elle a su expliquer un fichier Docker Compose et a même généré un composant simple pour une application Vue
      En poussant un peu avec des questions sur l'exemple, elle est restée étonnamment cohérente et concentrée sur toute la conversation, et distinguait bien quand on passait à un nouveau sujet ou quand on faisait référence à ce qui précédait, même sans effacer le contexte
      En particulier, quand j'ai demandé “What does following mean [docker compose contenu]”, cybertron-7b a répondu en reprenant ma formulation textuellement, du style “dans la configuration YAML fournie, ‘following’ désigne la spécification des dépendances” ; c'est la première fois que je vois un modèle citer ainsi avec précision une expression employée dans la conversation
    • Intrigué, j'ai créé un ollama modelfile pour la plus petite variante à partir de la version GGUF de TheBloke[1], et pour un modèle aussi petit il donne vraiment assez fortement une impression de GPT-4
      Il me semble plus cohérent que openhermes2.5-mistral, qui était jusque-là mon principal LLM local
      Si ollama est installé, on peut le lancer avec ollama run nollama/una-cybertron-7b-v2
      [1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
    • Oui. UNA semble pouvoir aligner le MoE à travers plusieurs couches, experts, et presque n'importe quelle partie du réseau neuronal
      Xaberius 34B v1 “BETA” est le roi, mais ce n'est littéralement qu'une bêta pour l'instant
      Je vais maintenant me concentrer sur Mixtral, et ce côté modulaire donne l'impression d'un cadeau de Noël. Merci à @mistral d'avoir ouvert le labo
    • Les benchmarks LLM ne sont-ils pas désormais au mieux dénués de sens, et au pire presque mensongers ?
    • Oui. Mistral ne semble pas accorder beaucoup d'importance au fait d'affaiblir drastiquement le modèle via un “entraînement à la sécurité”
      Il pourrait donc offrir une bien meilleure performance par paramètre qu'Anthropic/Google/OpenAI, tout en restant plus pilotable
  • Interprétation d'Andrej Karpathy :
    le nouveau LLM à poids ouverts de @MistralAI
    d'après params.json, hidden_dim / dim = 14336/4096 => expansion MLP 3.5X, n_heads / n_kv_heads = 32/8 => multiquery 4X, "moe" => mixture of experts 8X top 2
    Ce qui semble être le code associé :
    https://github.com/mistralai/megablocks-public
    Étrangement, il n'y a pas de vidéo de lancement ultra répétée et surjouée parlant de “révolution de l'IA”
    Si vous vous demandez pourquoi il y a autant d'activité IA en ce moment, c'est parce que la semaine prochaine a lieu NeurIPS, la plus grande conférence sur le deep learning
    https://twitter.com/karpathy/status/1733181701361451130

    • Si NeurIPS a lieu la semaine prochaine, on peut donc s'attendre à de grosses annonces de plusieurs entreprises, comme de nouvelles architectures ou de nouveaux modèles ? Je ne connais pas bien la culture des conférences de recherche, donc je demande
    • hidden_dim / dim = 14336/4096 => expansion MLP 3.5X et n_heads / n_kv_heads = 32/8 => 4X sont exactement les mêmes que pour Mistral-7B
    • EMNLP 2023 se tient aussi en ce moment, d'où l'afflux d'annonces
  • Mistral semble peu investir dans les explications détaillées, mais cette approche inspire bien plus confiance dans le produit que l'annonce Gemini de Google, lisse, corporate et sans âme

    • Mieux vaut publier les poids que de la documentation
      Ça me rappelle un employé de Google qui se vantait d'avoir publié les poids de Gemini, et seulement ceux d'une petite version mobile de Gemini, comme si c'était plus généreux que les autres entreprises
  • Une annonce grandiloquente est-elle vraiment nécessaire ? On peut faire à l'ancienne, façon années 90 : https://twitter.com/erhartford/status/1733159666417545641/ph...

    • Ça paraît bien plus audacieux et confiant que de sortir une page marketing ou une vidéo manifestement truquée et irréaliste
  • Ça ressemble à un mixture of experts (MoE), et params.json est le suivant
    { "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } }

    • Dans ce contexte, qu'est-ce qu'un expert au juste ?
    • Je ne vois pas le code là-dedans ; quel runtime peut charger ces poids ?
  • Les objectifs de ces entreprises ne sont pas exactement les mêmes, mais c'est assez drôle de comparer l'annonce de ce modèle à celle de Gemini par Google deux jours plus tôt

  • Cela contraste fortement avec l’approche de Google, qui avait « seulement une démo et pas de modèle », plus tôt cette semaine
    Cela semble avoir été entraîné avec Megablocks de Stanford : https://github.com/mistralai/megablocks-public

  • C’est peut-être polémique, mais je pense que Mistral 7B est en réalité l’état de l’art des LLM
    ChatGPT 4 est certes impressionnant, et j’y suis abonné depuis le premier jour, mais il tourne dans d’immenses fermes de serveurs lointaines et reste en grande partie une boîte noire
    Mistral est petit, étonnamment cohérent et utile sur les questions générales comme sur le code par rapport à sa taille, sans censure, et c’est un bond qu’on aurait eu du mal à croire possible il y a un an
    On peut le faire tourner à 12 tok/s sur un MacBook Air, et j’ai hâte de l’essayer sur un desktop

    • À l’échelle de ce qui peut tourner sur un MacBook Air, c’est l’état de l’art, mais pas celui de l’ensemble des LLM ni de l’open source
      Yi 34B et Llama2 70B font encore mieux
    • Si 50 % des informations consommées sur Internet ont été créées dans les dernières 24 heures, les petits modèles peuvent avoir un avantage assez important sur les gros
      Si l’on pouvait continuer à réentraîner ou à affiner des LLM ou des SmallLM chaque semaine ou chaque jour pour refléter les informations les plus récentes, les vieux modèles entraînés il y a 1 ou 2 ans auraient du mal à suivre
      Je ne connais pas la licence, mais OpenAI pourrait très bien intégrer un petit modèle comme Mistral7B dans la stack GPT, le réentraîner depuis zéro chaque semaine, puis le facturer au même prix que GPT-4
      Même si les performances sont moindres, il y aura sûrement des utilisateurs qui préféreront un modèle plus à jour
    • D’accord. Mistral 7B est vraiment étonnamment bon
      Les versions Intel ou les modèles fine-tunés comme Berkeley Starling donnent l’impression d’être assez proches de gpt3.5T alors qu’ils ne font que 7B
      J’attendais vraiment un Mistral 13B, mais je ne sais pas si ce MoE tournera sur une 3090 de 24 Go
      J’espère que la quantification, l’offloading et les techniques à venir le rendront exploitable
    • 12 tok/s sur un MacBook Air, ça paraît un peu faible
      Tu utilises l’accélération GPU Metal dans llama.cpp ? Je n’ai pas de MacBook, mais d’après les benchmarks de llama.cpp, avec l’accélération GPU on dirait qu’on peut monter à presque 30 tok/s
    • C’est vraiment le cas. Au minimum, il donne l’impression d’être du niveau de llama2 13b
      Si un mistral 70b avait existé et avait été meilleur que llama2 70b dans les mêmes proportions que ce que la version 7b a montré face à llama2, il aurait clairement été à un niveau comparable à gpt3.5
  • Il existe maintenant une version Hugging Face qui fonctionne de manière expérimentale : https://huggingface.co/DiscoResearch/mixtral-7b-8expert

  • Google fait de fausses démos, Mistral se contente d’un seul lien magnet