2 points par GN⁺ 2023-12-09 | 1 commentaires | Partager sur WhatsApp

1 commentaires

 
GN⁺ 2023-12-09
Commentaires Hacker News
  • Avis d'Andrej Karpathy :

    • Présentation du nouveau LLM open source (Large Language Model) de MistralAI
    • Réglages notables dans le fichier params.json :
      • hidden_dim / dim = 14336/4096 => expansion MLP de 3,5x
      • n_heads / n_kv_heads = 32/8 => multi-query 4x
      • "moe" => 8x, top 2, via Mixture of Experts
    • Le code associé est disponible sur GitHub
    • Pas de vidéo promotionnelle survendue sur la révolution de l'IA
    • Beaucoup d'activité dans l'IA en ce moment, avec l'approche de NeurIPS, une grande conférence de deep learning
  • Autres nouvelles LLM :

    • Mistral/Yi domine les autres modèles sur le leaderboard Hugging Face grâce à des modèles fine-tunés avec une nouvelle technique appelée « neural alignment »
    • Les modèles 7B « battent » la plupart des modèles 70B
    • Le modèle 34B en test semble très bon
    • Si cette technique est appliquée à Mistral Moe, cela pourrait donner un modèle exceptionnel
    • Un OSS capable de tourner sur un desktop pourrait marquer un tournant important en défiant GPT-4
  • Approche de Mistral :

    • Mistral ne semble pas trop se soucier des explications, mais ce style inspire davantage confiance que les annonces corporate très polies de Google
  • Style d'annonce minimaliste :

    • Préférence pour une annonce simple, façon années 90
  • Spécifications du modèle Mistral :

    • Publication du fichier params.json avec une architecture Mixture of Experts
  • Comparaison entre Mistral et Google sur la manière d'annoncer :

    • La manière dont Mistral présente son modèle contraste avec l'annonce de Gemini par Google
    • Mistral semble avoir été entraîné sur la base de Megablocks de Stanford
  • Stratégie marketing de Mistral :

    • Là où d'autres entreprises misent surtout sur des landing pages et des vidéos promotionnelles, Mistral publie simplement le modèle
  • Informations rendues publiques par Mistral :

    • Utilisation d'une architecture Mixture of Experts
    • 8 experts de 7B paramètres
    • 96 Go de poids au total, donc inutilisable sur un GPU domestique classique