- MK-1 est une nouvelle entreprise qui ambitionne de proposer des modèles d’IA aux capacités comparables, voire supérieures, à celles des acteurs d’élite de l’IA comme OpenAI, Anthropic et Google.
- Le premier produit de l’entreprise, MKML, est un runtime d’inférence qui peut diviser par deux le coût d’inférence des grands modèles de langage (LLM) sur GPU avec seulement quelques lignes de code Python.
- MKML est compatible avec des écosystèmes populaires comme Hugging Face et PyTorch.
- MKML est actuellement en phase de bêta fermée et recherche des partenaires initiaux.
- MKML peut aider à optimiser les modèles d’IA en réduisant leur utilisation mémoire et en augmentant leur vitesse. Par exemple, il peut ramener le modèle Llama-2 13B de 26GB à 10.5GB et réduire jusqu’à 2.3x le temps d’inférence du passage avant.
- MKML peut être utilisé pour optimiser les modèles d’IA en fonction du coût ou de la vitesse. Dans un scénario d’optimisation des coûts, il peut permettre à un modèle de tenir sur des instances GPU moins coûteuses, tout en s’exécutant plus rapidement que le modèle de base sur des instances plus chères. Dans un scénario d’optimisation de la vitesse, MKML peut rendre un modèle jusqu’à 2.0x plus rapide afin de servir davantage d’utilisateurs.
- MKML s’intègre facilement aux workflows existants. Cela consiste à compresser le modèle une fois à l’aide de l’un des codecs de modèle de MKML, à enregistrer le modèle compressé sur disque, puis à le charger pour l’inférence.
- MKML prend en charge différentes tailles de modèles et configurations système, et se montre systématiquement plus rapide que la baseline dans les tests de vitesse.
- MKML conserve également une forte fidélité au modèle d’origine, avec des écarts négligeables sur les mesures standard de perplexité.
- La vision à long terme de MK-1 est de pousser les performances de l’IA jusqu’à leurs limites sur l’ensemble de la pile d’inférence. L’entreprise dispose d’une feuille de route ambitieuse pour les développements à venir.
1 commentaires
Avis Hacker News