1 points par GN⁺ 2023-08-07 | 1 commentaires | Partager sur WhatsApp
  • MK-1 est une nouvelle entreprise qui ambitionne de proposer des modèles d’IA aux capacités comparables, voire supérieures, à celles des acteurs d’élite de l’IA comme OpenAI, Anthropic et Google.
  • Le premier produit de l’entreprise, MKML, est un runtime d’inférence qui peut diviser par deux le coût d’inférence des grands modèles de langage (LLM) sur GPU avec seulement quelques lignes de code Python.
  • MKML est compatible avec des écosystèmes populaires comme Hugging Face et PyTorch.
  • MKML est actuellement en phase de bêta fermée et recherche des partenaires initiaux.
  • MKML peut aider à optimiser les modèles d’IA en réduisant leur utilisation mémoire et en augmentant leur vitesse. Par exemple, il peut ramener le modèle Llama-2 13B de 26GB à 10.5GB et réduire jusqu’à 2.3x le temps d’inférence du passage avant.
  • MKML peut être utilisé pour optimiser les modèles d’IA en fonction du coût ou de la vitesse. Dans un scénario d’optimisation des coûts, il peut permettre à un modèle de tenir sur des instances GPU moins coûteuses, tout en s’exécutant plus rapidement que le modèle de base sur des instances plus chères. Dans un scénario d’optimisation de la vitesse, MKML peut rendre un modèle jusqu’à 2.0x plus rapide afin de servir davantage d’utilisateurs.
  • MKML s’intègre facilement aux workflows existants. Cela consiste à compresser le modèle une fois à l’aide de l’un des codecs de modèle de MKML, à enregistrer le modèle compressé sur disque, puis à le charger pour l’inférence.
  • MKML prend en charge différentes tailles de modèles et configurations système, et se montre systématiquement plus rapide que la baseline dans les tests de vitesse.
  • MKML conserve également une forte fidélité au modèle d’origine, avec des écarts négligeables sur les mesures standard de perplexité.
  • La vision à long terme de MK-1 est de pousser les performances de l’IA jusqu’à leurs limites sur l’ensemble de la pile d’inférence. L’entreprise dispose d’une feuille de route ambitieuse pour les développements à venir.

1 commentaires

 
GN⁺ 2023-08-07
Avis Hacker News
  • L’article présente la nouvelle technologie MK-1, mais ne compare pas ses résultats avec les méthodes de quantification existantes, ce que certains lecteurs considèrent comme une omission importante.
  • Un lecteur fournit un graphique comparatif d’autres quantifications disponibles pour Llama 1 et suggère que les performances de MK-1 sont similaires à celles de Q5_1, avec une légère réduction de la complexité et une vitesse plus de deux fois supérieure.
  • Certains lecteurs expriment leur scepticisme à l’égard de MK-1, suggérant qu’il pourrait s’agir d’un wrapper autour de technologies existantes comme bitsandbytes ou ggml.
  • Des inquiétudes sont soulevées concernant le fait que MK-1 ne soit pas open source, et certains lecteurs déclarent qu’ils ne l’utiliseront pas en raison du rythme rapide du secteur et du manque de praticité.
  • Un lecteur indique avoir participé à des travaux de quantification de modèles de ML et affirme que les quantifications open source en 4 bits ou 8 bits ne sont pas les meilleures, laissant entendre qu’il existe des techniques plus avancées.
  • Une comparaison est demandée entre MK-1 et mlc-llm avec quantification 4 bits, ce dernier étant présenté comme capable d’exécuter Llama2 13B à une vitesse étonnante.
  • Certains lecteurs se plaignent des dépendances propriétaires dans la stack technique et préfèrent des options de premier plan comme OpenAI et Anthropic, ou bien construire leur propre solution.
  • La décision de l’entreprise d’optimiser des modèles populaires et de les vendre sous une véritable licence OSS, sans se soucier des restrictions de licence sur les poids, semble être un choix stratégique.
  • Certains lecteurs qualifient MK-1 de nouvelle arnaque de startup IA, lui reprochant d’utiliser GGML, d’être fermé et de chercher à capter de l’argent de VC.
  • L’absence d’open source et la nature fermée de MK-1 apparaissent comme des défauts majeurs, au point que certains lecteurs le déclarent déjà « condamné ».