ROCm défie CUDA : « avancer pas à pas »

(eetimes.com)

2 points par GN⁺ 15 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

AMD renforce sa stratégie GPU pour les datacenters autour de ROCm, sa pile logicielle IA, afin de rivaliser avec l’écosystème Nvidia CUDA
ROCm est passé d’un simple assemblage initial de firmware à une plateforme logicielle complète, et adopte un cycle de publication de 6 semaines pour garantir une utilisation plus stable
Avec OneROCm, AMD cherche à unifier la pile IA et à assurer la portabilité entre CPU, GPU et FPGA, tout en améliorant l’efficacité du développement grâce à la réutilisation de code basée sur Triton·MLIR
ROCm est open source dans tous ses composants sauf le firmware, ce qui lui permet de tirer parti du rythme d’innovation de la communauté, et il est aussi pris en charge par défaut sur les PC portables Strix Halo et la version Windows
AMD met l’accent sur la prise en compte des retours des développeurs et le rétablissement de la confiance de la communauté, avec pour objectif de faire de ROCm une plateforme durable centrée sur les développeurs pour les 10 prochaines années

L’évolution de ROCm chez AMD et sa stratégie de concurrence face à CUDA

AMD fait de ROCm, sa pile logicielle IA, un axe stratégique majeur pour répondre à l’écosystème CUDA de Nvidia sur le marché des GPU pour datacenters
Anush Elangovan, vice-président en charge des logiciels IA, décrit le développement de ROCm comme « une ascension de montagne, un pas après l’autre », soulignant l’importance de l’amélioration continue et de l’intégration
Il a rejoint AMD après le rachat de la startup Nod.ai, dont l’équipe a contribué à plusieurs projets open source majeurs comme Shark, Torch.MLIR et IREE
Avec ROCm, AMD cherche à unifier la pile IA entre CPU, GPU et FPGA (OneROCm), tout en ramenant le cycle de développement logiciel à 6 semaines, avec l’objectif d’atteindre un niveau où « l’utilisateur n’a même plus besoin de prêter attention à la version »
ROCm se prépare actuellement à une transition vers une ingénierie assistée par l’IA, tout en accélérant son expansion autour de l’écosystème open source et de la communauté de développeurs

À ses débuts, ROCm n’était qu’un assemblage de plusieurs morceaux de firmware, mais après deux ans et demi d’investissements, il est devenu une plateforme logicielle complète
- Elangovan dit s’être inspiré de la culture de développement de l’équipe Google Chrome pour viser des cycles de publication réguliers et une expérience utilisateur stable
- ROCm est désormais un logiciel qui « fonctionne tout simplement », et doit prochainement passer à un cycle de publication de 6 semaines
AMD est en train de passer d’une entreprise centrée sur le matériel à une entreprise centrée sur le logiciel, et considère comme prochaine étape clé l’ingénierie assistée par l’IA

Avec OneROCm, AMD met en place une intégration de la pile IA entre différents matériels comme les CPU, GPU et FPGA
- Certains composants restent encore dépendants du matériel, mais toute l’accélération passe par la pile ROCm, ce qui garantit la portabilité
La diffusion du framework Triton réduit les problèmes de compatibilité entre GPU
- Par le passé, les noyaux CUDA étaient convertis en noyaux HIP, mais il est désormais possible d’écrire des noyaux Triton exécutables à la fois sur AMD et Nvidia
- AMD investit activement dans Triton et dans l’infrastructure de compilation MLIR, et prend en charge la maintenance de Torch.MLIR afin de permettre le retargeting du code vers divers matériels
La plupart des clients en inférence utilisent des frameworks LLM comme vLLM et SGLang, ce qui réduit les demandes de conversion de code CUDA
- Lorsqu’un nouvel algorithme d’attention apparaît, il est possible d’optimiser un noyau basé sur Triton en un ou deux jours
- HIPify reste proposé pour les clients HPC, tandis que Claude AI est utilisé pour la validation et la génération de code lors de l’écriture de nouveaux noyaux

ROCm publie 100 % de ses composants en open source, à l’exception du firmware
- Cette ouverture permet à la fois de bénéficier de la validation de la communauté de développeurs et de tirer parti d’un rythme d’innovation communautaire plus rapide que celui d’AMD
- Chacun peut contribuer au niveau souhaité, qu’il s’agisse du compilateur, du runtime ou d’autres composants, sans être limité par la vitesse de collaboration d’AMD
AMD pousse activement l’élargissement de la communauté de développeurs, et ROCm est pris en charge par défaut sur les PC portables équipés de Strix Halo
- Les mises à jour de la version Windows de ROCm sont déployées le même jour que celles du matériel de datacenter Instinct

Elangovan accorde une grande importance à la communication directe avec les développeurs et collecte des retours en temps réel via X (Twitter)
- Il surveille des mots-clés comme « ROCm », « ROCm sucks » ou « AMD software not working », et répond personnellement à chaque publication
- Selon lui, la plupart des problèmes viennent d’un manque de formation et d’assistance, et il apporte lui-même des conseils, y compris à des développeurs anonymes
AMD a enquêté sur plus de 1 000 réclamations liées à ROCm sur GitHub, et les a toutes résolues en moins d’un an
- Beaucoup concernaient des demandes de prise en charge d’anciens matériels, désormais maintenus soit par AMD, soit par la communauté
- Cette réaction a permis de restaurer la confiance des développeurs et de diffuser l’idée que « AMD résout les problèmes »
Elangovan affiche aussi son enthousiasme pour le GPU MI450, prévu pour le second semestre 2026, et souligne sa volonté de faire de ROCm une plateforme pérenne pour les 10 prochaines années
- L’objectif est de bâtir un écosystème stable dans lequel les développeurs n’auront pas à s’inquiéter de l’arrivée de nouveaux matériels

En s’appuyant sur son expérience chez Nod.ai, Elangovan évoque des cas où des technologies de compilation ont été adoptées par presque toutes les entreprises d’accélérateurs
- Il affirme qu’« il faut avancer pas à pas avec conviction », définissant la progression de ROCm comme le résultat d’une exécution continue
AMD ne cherche pas seulement à reproduire CUDA, mais développe aussi des fonctionnalités ROCm différenciantes, avec l’ambition à long terme de s’imposer comme une plateforme centrée sur les développeurs