AMD acquiert MK1 pour améliorer les performances et l’efficacité de l’inférence IA

(mkone.ai)

1 points par GN⁺ 2023-08-07 | 1 commentaires | Partager sur WhatsApp

AMD cherche, via l’acquisition de MK1, à améliorer les performances et l’efficacité de l’inférence IA sur l’ensemble de la stack, du matériel au logiciel
Basée à Mountain View, MK1 est une équipe spécialisée dans l’inférence haute vitesse adaptée aux déploiements à grande échelle et dans les technologies d’IA fondées sur le reasoning
Le Flywheel de MK1 est optimisé pour le matériel AMD et traite actuellement plus de 1 billion de tokens par jour
L’équipe MK1 rejoint l’AMD Artificial Intelligence Group afin de renforcer la stack logicielle d’IA d’entreprise et les capacités d’inférence
Flywheel et les comprehension engines exploitent l’architecture mémoire des GPU AMD Instinct pour améliorer la précision, l’efficacité coût et la traçabilité du reasoning à grande échelle

MK1 rejoint la stack IA d’AMD

AMD a finalisé l’acquisition de MK1 et en fait une étape stratégique pour renforcer les performances et l’efficacité de l’IA sur l’ensemble de la stack
MK1 est une équipe basée à Mountain View, en Californie, qui développe des technologies d’IA fondées sur le reasoning ainsi que de l’inférence haute vitesse optimisée pour les déploiements à grande échelle
La technologie Flywheel de MK1 est optimisée pour le matériel AMD et traite actuellement plus de 1 billion de tokens par jour
L’équipe MK1 rejoint l’AMD Artificial Intelligence Group
- Les technologies et l’expertise de cette équipe seront mises à profit pour faire progresser les capacités d’inférence haute vitesse d’AMD et sa stack logicielle d’IA d’entreprise

Flywheel cible l’IA d’entreprise

Le Flywheel et les comprehension engines de MK1 sont conçus pour tirer parti de l’architecture mémoire des GPU AMD Instinct
Cette technologie vise à fournir, à grande échelle, un reasoning alliant précision, efficacité coût et traçabilité complète
AMD entend accélérer la prochaine étape de l’IA d’entreprise en combinant les innovations logicielles de MK1 avec ses propres capacités de calcul
- aider les clients à automatiser des processus métier complexes
- leur permettre d’ouvrir de nouvelles opportunités dans des applications à forte valeur ajoutée
Les déclarations relatives aux effets attendus de l’acquisition constituent des déclarations prospectives ; les résultats réels peuvent différer en fonction des risques et incertitudes décrits dans les documents déposés par AMD auprès de la SEC

1 commentaires

GN⁺ 2023-08-07

Avis sur Hacker News

C’est étrange qu’ils ne mentionnent jamais les techniques de quantification existantes ni ne comparent leurs résultats avec elles.
En général, j’essaie de leur accorder le bénéfice du doute, mais il est difficile d’imaginer qu’ils ignorent des techniques déjà largement utilisées pour le même objectif ; il devrait donc y avoir des benchmarks comparatifs.
Pour combler ce manque, il existe un tableau comparatif des différentes quantifications fournies par llama.cpp pour Llama 1[0]. On ne peut pas le comparer directement aux métriques de Llama 2, mais si l’on regarde seulement la vitesse et l’évolution de la perplexité, MK-1 semble très proche de Q5_1. La perplexité se dégrade peu, mais de manière non négligeable, et la vitesse est un peu plus que doublée.
Si ces chiffres sont corrects, on peut télécharger depuis Hugging Face un modèle Llama 2 déjà quantifié et obtenir en pratique les mêmes performances que ce que propose MK-1. Les fichiers Q5 sont ici : https://huggingface.co/TheBloke/Llama-2-13B-GGML/tree/main
[0] https://github.com/ggerganov/llama.cpp#quantization
- Je suis l’un des fondateurs. La raison pour laquelle nous avons choisi de ne pas comparer aux méthodes existantes est que nous estimions qu’il était difficile de le faire équitablement.
  Chaque technique implique de nombreux compromis et cas d’usage ; ce n’est pas une question où l’une serait mauvaise et l’autre bonne, mais plutôt de points de conception ciblés différents. Par exemple, le cloud et le local ne sont pas la même chose. Nous publions des chiffres et des benchmarks, et nous sommes actuellement en bêta privée parce que nous cherchons des premiers partenaires correspondant à notre proposition de valeur actuelle.
  Par exemple, llama.cpp est un excellent framework pour faire tourner des modèles localement dans un cas mono-utilisateur (batch=1). Même si llama.cpp prend en charge plusieurs backends comme RPi, CPU et GPU, il ne me semblerait pas équitable de montrer que MKML est meilleur selon certains critères de perplexité, de taux de compression et de vitesse sur GPU dans un cas multi-utilisateur (batch >> 1). À ma connaissance, ce n’est pas le cas d’usage visé par llama.cpp. Par exemple, MKML atteint environ 2700 tok/sec avec Llama-2 7B sur une 4090 en batch 32, c’est-à-dire avec 32 prompts traités en parallèle, pour une consommation mémoire de 5,2 Go et une perplexité presque au niveau du fp16.
  Par ailleurs, à l’heure actuelle, nous n’enveloppons pas d’outils ou de techniques open source de quantification. Tout est développé en interne, et nous aurons bientôt davantage d’informations à partager. Si vous avez des questions techniques précises, j’y répondrai autant que possible.
- L’emploi du mot « codec » me met aussi un peu mal à l’aise. On dirait qu’ils essaient de donner l’impression d’avoir inventé un paradigme entièrement nouveau, avec un nom accrocheur qui évoque la compression vidéo.
- Ce week-end, j’ai fait divers essais avec Llama2 sur une AMD 7900 XTX, llama.cpp et la quantification q5_k_s.
  Comparé aux chiffres MK600 qu’ils donnent pour une RTX 4090, j’obtiens un débit plus élevé et une perplexité plus faible, tout en utilisant un GPU moins cher.
- Q5_1 est déjà une vieille méthode. Les quantifications de la famille K sont plus rapides et plus efficaces en espace pour la même perte de perplexité.
  https://old.reddit.com/r/LocalLLaMA/comments/142q5k5/updated...
- Ils disent que MKML réduit la taille du modèle Llama2-13B de 26 Go à 10,5 Go. L’offre comparable de TheBloke est un modèle Q6_K de 10,7 Go.
  Peut-être qu’ils ne font qu’emballer GGML et llama.cpp de manière pratique, tout en laissant les gens croire qu’il s’agit d’une technologie propriétaire.
Ils ne mentionnent pas une seule fois les techniques de quantification existantes ? Je parierais 10 dollars que ce n’est qu’un wrapper autour de bitsandbytes ou ggml.
Si ce n’est pas open source, je pense que ce sera difficile à utiliser.
Ce domaine évolue trop vite, et sinon la commodité ne sera pas suffisante.
Au passage, le branding fait penser à MK-ultra ; ils feraient mieux d’éviter ça.
J’ai déjà travaillé sur la quantification de modèles de machine learning. Les quantifications open source en 4 bits ou 8 bits ne sont pas ce qu’on peut obtenir de mieux.
Il existe des techniques beaucoup plus sophistiquées pour réduire la taille tout en conservant les performances prédictives. Certaines, comme l’apprentissage conscient de la quantification, impliquent de modifier le processus d’entraînement.
- Il est certain qu’il existe de meilleures méthodes. Mais dans ce cas, les chiffres de MKML ne sont pas impressionnants si on les met côte à côte avec les principales techniques de quantification déjà largement utilisées.
  D’après ce tableau[0], la taille ressemble le plus à une quantification Q6_K, et la perplexité semble même légèrement pire.
  Si leur technique était meilleure, je pense qu’ils auraient reconnu l’existence des méthodes open source et les auraient incluses dans le tableau comparatif, plutôt que de donner l’impression que le modèle fp16 brut est la seule alternative.
  [0] https://old.reddit.com/r/LocalLLaMA/comments/142q5k5/updated...
- Que vaut la méthode de quantification d’Unum ?
  https://github.com/unum-cloud/usearch
Ça ressemble à encore une arnaque de startup IA. Le genre à utiliser GGML, fermer le tout, puis lever de l’argent auprès de VC.
On dirait une autre société de wrappers IA qui fait la même chose pour surfer sur la vague des LLM avant qu’elle ne retombe.
Si ce n’est pas open source et que c’est fermé, c’est déjà mal parti.
Ce n’est pas simplement de la quantification ?
- Dans la vidéo de démo, les sorties sont exactement les mêmes dans les deux cas, donc je doute qu’ils utilisent de la quantification.
- C’est exactement ce que je me disais. C’est déjà ce que tout le monde fait. S’ils ne font pas autre chose, ils doivent montrer pourquoi c’est meilleur qu’une simple quantification rapide en 8 bits, 4 bits, etc.
- Quoi que ce soit, il y a de fortes chances que ce soit bientôt répliqué ou qu’une fonction similaire soit ajoutée à des outils open source comme llama.cpp.
  Ça ne ressemble pas à un avantage défendable. On dirait une fonctionnalité isolée face à des alternatives open source qui avancent très vite.
Dommage que ce ne soit pas un effort open source.
Je n’ai vraiment pas envie d’introduire une dépendance propriétaire dans ma stack.
- Je suis assez sceptique sur jusqu’où cela peut aller. La communauté open source a déjà obtenu, avec la quantification, des gains de performances pratiquement équivalents.
  Ça donne l’impression qu’ils reconditionnent des bibliothèques existantes pour les vendre à des startups IA peu prudentes et mal informées.
Comment cela se compare-t-il à mlc-llm, qui utilise une quantification 4 bits ? Sur ma 4090, llama2 13B tourne extrêmement vite.
Même avec une quantification 4 bits, c’est plusieurs fois plus rapide que llama.cpp sur GPU.
- Oui, l’auto-tuning TVM Vulkan est impressionnant. À mon avis, ils n’utilisent même pas l’extension Vulkan pour matmul.
  La quantification 4 bits de MLC est plutôt simple par rapport à llama.cpp, ce qui augmente la perplexité et explique aussi une partie de l’écart de vitesse. Mais la fonctionnalité qui manque le plus, c’est l’offloading CPU. Avec ça, on pourrait faire tourner un 70B de manière assez crédible sur une 4090.
  Pour moi, le Graal de l’inférence LLM locale serait de faire tourner Llama 70B avec TVM en le répartissant entre le GPU et le GPU intégré. On a l’impression d’y être presque. Toutes les pièces existent, mais il manque un développeur frontend pour relier les points.
De nos jours, on peut faire ce genre de choses même sur un MacBook Pro. Je ne vois pas bien pourquoi je voudrais me retrouver enfermé chez un autre fournisseur.
Si l’on veut ce qu’il y a de mieux, on utilise OpenAI ou Anthropic ; sinon, on le fait tourner soi-même.
Est-ce vraiment l’effet Ultra Instinct^H^H de Llama2 ?
Facebook renforce en fait l’écosystème, les créateurs d’outils et les petits services d’inférence.
Cette entreprise avait accès à un modèle fiable et populaire, ainsi qu’à des poids associés à un modèle disposant d’une véritable licence open source ; elle a donc pu vendre des optimisations par-dessus sans se soucier de la licence ou des restrictions des poids eux-mêmes.

AMD acquiert MK1 pour améliorer les performances et l’efficacité de l’inférence IA

MK1 rejoint la stack IA d’AMD

Flywheel cible l’IA d’entreprise

À lire aussi

1 commentaires

Avis sur Hacker News