2 points par GN⁺ 2023-12-14 | 1 commentaires | Partager sur WhatsApp

Comparaison des performances du framework Apple MLX face au Nvidia RTX 4090

  • Apple a lancé un framework de machine learning pour Apple Silicon.
  • Pour benchmarker les performances de ce framework, un exemple avec Whisper a été utilisé.
  • Les mesures de performances ont été effectuées sur des fichiers audio à l’aide de code Python.

Résultats

  • Pour traiter un fichier audio de 10 minutes, le M1 Pro a mis 216 secondes, tandis que le Nvidia 4090 a mis 186 secondes.
  • En utilisant un modèle optimisé pour Nvidia, le traitement peut être effectué en seulement 8 secondes.
  • Les spécifications matérielles du Macbook et du PC sont décrites en détail.

La vitesse surprenante de Whisper

  • L’article, qui a fait parler de lui sur HackerNews, partage le cas d’un utilisateur ayant traité le fichier en 8 secondes avec un Nvidia 4090.
  • L’expérience a également été menée sur MacOS, avec un résultat plus lent que la version MLX.

Mise à jour M2 Ultra / M3 Max

  • En traitant le même fichier audio sur M2 Ultra et M3 Max, les résultats montrent des performances bien supérieures à celles du M1, mais des vitesses similaires entre les deux GPU.

Comparaison

  • Même si la comparaison peut manquer de précision en raison de plusieurs facteurs, elle permet d’obtenir un ordre de grandeur des performances.

Consommation électrique

  • La différence de consommation électrique entre le PC et le Macbook a été mesurée.
  • La différence de consommation du PC entre l’état de veille et le fonctionnement du Nvidia 4090 est de 242 W, tandis que celle du Macbook entre l’état de veille et le fonctionnement des cœurs GPU du M1 est de 38 W.

Pourquoi faire ce test ?

  • Le moteur de recherche de podcasts https://podpodgogo.com est exploité, avec transcription de milliers d’épisodes pour permettre la recherche plein texte et le data mining.

Avis de GN⁺ :

  • Le point le plus important de cet article est que les performances du framework de machine learning pour Apple Silicon sont compétitives face à la toute dernière carte graphique grand public de Nvidia.
  • Le fait d’obtenir de telles performances sur un ordinateur portable est particulièrement intéressant, ce qui peut en faire une option attrayante pour les utilisateurs cherchant un équilibre entre portabilité et performances pour les charges de travail de machine learning.
  • L’article souligne aussi l’efficacité relative du Macbook en matière de consommation électrique, une information importante pour les utilisateurs sensibles à la durabilité environnementale et au coût d’exploitation.

1 commentaires

 
GN⁺ 2023-12-14
Avis Hacker News
  • Il semble que cela utilise le dépôt OpenAI Whisper. Pour une comparaison vraiment équitable, il faudrait comparer MLX à faster-whisper ou insanely-fast-whisper exécutés sur une 4090.

    • Dans des cas d’usage réels, j’ai constaté que faster whisper offre une meilleure qualité lorsqu’il inclut le texte des segments précédents.
    • faster whisper est environ 4 à 5 fois plus rapide que OpenAI/whisper, et insanely-fast-whisper est encore 3 à 4 fois plus rapide que faster whisper.
    • Si Whisper exécuté sur une 4090 n’était pas très optimisé, ces résultats sont suspects.
  • Le code exploite la dernière version d’Apple MLX et utilise des optimisations spécifiques à Apple.

    • On s’attend à ce que MLX attire l’attention lorsque des bindings Swift sortiront pour Mac et iOS.
    • Il peut actuellement y avoir des problèmes de compilation en C++20.
  • Je me demande si Whisper a été choisi en raison de sa nature séquentielle et de son calcul en nombres entiers, et si ces résultats s’appliquent aussi à d’autres modèles.

    • Certaines opérations ne sont pas encore optimisées dans MLX.
    • Ce sont des chiffres impressionnants du point de vue de la latence et de l’accessibilité partagée, grâce à la RAM très rapide directement reliée au CPU/GPU.
    • Il vaut la peine de rappeler qu’un système M3 Max coûte environ deux fois plus qu’une 4090.
  • Exécuter Whisper sur un Mac M1 est facile, mais cela n’utilise pas MLX par défaut.

    • J’ai passé des heures à comprendre ce qu’il fallait faire pour le configurer afin qu’il utilise MLX.
    • J’ai lancé Whisper en quelques minutes en louant une VM avec GPU.
  • Il y aura beaucoup de débats sur le meilleur choix pour telle ou telle tâche, mais il est attrayant d’obtenir ce niveau de performances avec une faible consommation électrique.

  • Quand on pense à l’Apple Vision Pro, cela n’a peut-être pas beaucoup de sens sur un laptop, mais c’est un gros avantage pour un casque très énergivore.

  • Demande d’aide pour trouver une bonne application ou un bon workflow open source de transcription et d’identification des locuteurs.

    • J’en ai regardé quelques-uns, mais ils ne fonctionnent pas bien et plantent.
  • Recommandation d’utiliser un dépôt dérivé de Whisper capable de transcrire 1 heure d’audio en moins d’une minute sur la plupart des GPU.