Apple Silicon coûte plus cher qu’OpenRouter
(williamangel.net)- Le coût de l’inférence locale dépend davantage du prix de la machine que de l’électricité, et le modèle M5 Max MacBook Pro 64GB est évalué à 4 299 $
- Un portable Apple Silicon en charge consomme 50 à 100 W, et avec un tarif de 0,20 $/kWh, le coût d’électricité n’atteint qu’environ 0,48 $ par jour
- Gemma4:31b a été observé à 10 à 40 tokens par seconde sur un M5 Max, ce qui donne un coût d’environ 0,40 à 4,79 $ par million de tokens
- Gemma4 31b sur OpenRouter coûte environ 0,38 à 0,50 $ par million de tokens, et ne devient comparable au MacBook Pro Max que dans des conditions très optimistes
- L’inférence locale est en général plus chère et plus lente qu’OpenRouter, et d’un point de vue comptable il est raisonnable d’estimer le coût du Pro Max à environ 3 fois celui d’OpenRouter par million de tokens
Calcul du coût de l’inférence locale
- Le prix de l’électricité est de 0,18 $/kWh d’après une facture récente en Virginie du Nord, mais les calculs retiennent une hypothèse plus haute de 0,20 $/kWh
- Le tarif résidentiel moyen de l’électricité aux États-Unis en 2025 selon l’EIA est de 0,1730 $/kWh
- Si un portable Apple Silicon consomme 50 à 100 W en charge, le coût d’électricité est de 0,009 à 0,018 $ par heure, soit environ 0,02 $/h
- Même en faisant tourner l’inférence à 100 % en continu, le coût d’électricité reste d’environ 0,48 $ par jour
- Le MacBook Pro 14 pouces M5 Max en version 64GB coûte 4 299 $ sur le site d’Apple, et 64GB est considéré comme suffisant pour exécuter des modèles comme Gemma 4 31b
- En amortissant le matériel sur 3 ans, 5 ans ou 10 ans, le coût annuel est respectivement de 1 433 $, 860 $ et 430 $
- Le coût matériel horaire est calculé à 0,16358 $ sur 3 ans, 0,09815 $ sur 5 ans et 0,04908 $ sur 10 ans
- Pour un usage général, une durée de vie de 5 ans est une estimation raisonnable ; 7 ans ou 10 ans restent possibles, mais sous charge d’inférence maximale, 3 ans peut aussi être une hypothèse raisonnable
Coût par token et comparaison avec OpenRouter
- La variable clé du coût d’un modèle local est le nombre de tokens générables par heure ; lors des tests sur M5 Max, des modèles comme Gemma4:31b se situaient entre 10 et 40 tokens par seconde
- À 10 tokens par seconde, cela représente 36 000 tokens par heure et, avec une durée de vie de 3 à 10 ans et un tarif de 0,18 $/kWh, le coût est de 1,61 à 4,79 $ par million de tokens
- À 40 tokens par seconde, cela représente 144 000 tokens par heure, et le coût descend à 0,40 à 1,20 $ par million de tokens
- Sur Apple Silicon, le coût matériel pèse bien plus que l’électricité dans le coût total
- Le prix de Gemma4 31b sur OpenRouter est d’environ 0,38 à 0,50 $ par million de tokens
- Dans des conditions optimistes — 50 W, 40 tokens par seconde et 10 ans d’usage — le MacBook Pro Max descend à un coût comparable à OpenRouter
- Dans des conditions pessimistes — 100 W, 10 tokens par seconde et 3 ans d’usage — le MacBook Pro Max coûte 10 fois plus cher qu’OpenRouter
- D’un point de vue comptable, il est raisonnable d’estimer le coût de l’inférence locale sur Pro Max à environ 3 fois celui d’OpenRouter par million de tokens
- Dans la plupart des cas, la variable la plus importante n’est pas le coût mais la vitesse d’inférence, et l’inférence locale est plus lente que l’inférence cloud
- Certains fournisseurs de Gemma 4 sur OpenRouter atteignent 60 à 70 tokens par seconde, soit 3 à 7 fois plus vite que les 10 à 20 tokens par seconde observés sur Pro Max
- Le coût salarial d’un employé utilisant un portable professionnel est environ 1 000 fois supérieur au coût des tokens générés localement, ce qui rend dans ce contexte plus logique de dépenser cet argent chez Anthropic
- Il reste néanmoins remarquable de pouvoir exécuter sur un appareil grand public un modèle aux performances proches d’Anthropic Sonnet
1 commentaires
Avis sur Hacker News
Cette analyse n’est pas très bonne, parce qu’elle arrondit systématiquement toutes les valeurs vers le haut. Elle majore de 10 % le prix de l’électricité, prend pour la plage de consommation électrique la borne haute, qui vaut le double de la borne basse, puis la multiplie par ce tarif d’électricité gonflé
Et elle part du principe qu’un Mac nouvellement acheté tourne en inférence 24 h/24 à pleine charge. Pourquoi faudrait-il faire ça ? Apple Silicon est rapide mais, comme l’auteur le souligne lui-même, avec environ 10 à 40 tokens par seconde, ce n’est pas mauvais sans que ce soit son usage d’origine
Les datacenters ne paient pas l’électricité au tarif résidentiel, utilisent des puces plus efficaces énergétiquement et n’emploient pas des puces conçues pour être des Mac. Apple Silicon ne brûle pas des tokens 24/7/365 et, si vous n’achetez pas un nouveau matériel uniquement dans ce but, c’est plutôt correct. On peut utiliser un Mac Studio pour les tâches nécessaires quelques fois par semaine et faire tourner ollama « comme si c’était gratuit » à travers un tailnet. L’économie tient quand on n’essaie pas de faire fonctionner un Mac Studio comme un cluster de H100 à refroidissement liquide, et il est évident que du matériel mutualisé avec une électricité bon marché et plus de tokens par watt gagne presque toujours
Sauf erreur de ma part, ce calcul inclut le prix total de l’ordinateur portable dans le coût de génération des tokens. Il semble oublier qu’en échange de cet argent on obtient non seulement la sortie du LLM, mais aussi l’ordinateur portable
Si l’idée est de laisser cette machine dans un coin sombre et de l’utiliser uniquement comme serveur qui mange des tokens, alors un portable est vraiment un mauvais choix technique pour cet usage. Mais si vous comptez utiliser un portable comme portable, le fait d’avoir un portable est un avantage considérable plutôt que l’inverse
On obtient aussi de la confidentialité, la liberté vis-à-vis de la censure et le contrôle sur le modèle utilisé. On peut éviter de construire un workflow autour des caractéristiques d’un modèle donné, pour découvrir 3 mois plus tard qu’il a soudainement disparu
Un nombre absurde d’entre eux ont dépensé plus de 10 000 $ en Mac Studio, tout en restant limités par le calcul et sans vraiment disposer d’options plus efficaces que Gemma 4
Les entreprises d’IA frontier vendent à perte
Même en mettant complètement de côté ce qu’a dit u/bastawhiz[0], Claude, OpenAI, Gemini, etc. brûlent littéralement des centaines de milliards de dollars et revendent des choses qui valent 1 dollar pour quelques centimes, dans l’espoir d’être ceux qui survivront jusqu’au bout
Si je dépense 10 $ pour cultiver des oranges et que je les vends 1 $, il est évident que les cultiver soi-même paraîtra plus cher. Ces modèles ne peuvent que devenir plus chers avec le temps, et ils essaient simplement de verrouiller le marché avant de devoir mettre fin à cette vente à perte massive
[0]: https://news.ycombinator.com/item?id=48168433
Il y a aussi des raisons techniques pour lesquelles l’inférence devient bien plus efficace à grande échelle
LLAMA 3.1 405B coûtait 6 $/12 $ par million de tokens en 2024, mais en 2026 le même modèle est à 3 $/3 $. Si le coût des tokens de GPT5.5 est supérieur à celui de 5.4, c’est parce que les modèles les plus intelligents à un moment donné sont bien plus gros qu’avant. Mais dans deux ans, il y a de fortes chances que le coût de fourniture d’un modèle de la taille de GPT5.5 soit inférieur à celui du GPT5.5 d’aujourd’hui. Les techniques de distillation sont efficaces pour réduire le nombre de paramètres nécessaires à benchmark équivalent, donc dans deux ans on devrait aussi pouvoir obtenir le même niveau d’intelligence à moindre coût
Si vous voulez un bon modèle dense, mieux vaut utiliser qwen3.6 27B. C’est plus rapide, et si vous ne me croyez pas quand je dis que c’est plus intelligent, les tarifs OpenRouter parlent d’eux-mêmes en le comparant à Gemma, qui est plus gros, plus lent et moins efficace en mémoire
Si vous voulez un modèle plus rapide, prenez qwen3.6 35B. Si un modèle Gemma convient mieux à votre tâche, gemma 4 26B est aussi possible. Si les gens, moi compris, ont tant parlé de ces deux-là, et surtout du 27B, ce n’est pas pour rien. Il est assez petit pour tourner à une vitesse correcte, en particulier grâce au MTP intégré que llama.cpp prend enfin officiellement en charge, et sur beaucoup de charges de travail ainsi que sur tous les benchmarks que j’ai essayés, il égale ou dépasse des modèles qu’il ne devrait pas battre à l’origine
Il y a quelques jours, je me suis réveillé sans Internet, j’ai lancé le 27B sur un pi, je lui ai donné le mot de passe du routeur et je lui ai demandé de diagnostiquer le problème. Quand je suis revenu avec mon café, il avait produit un rapport complet avec une proposition de marche à suivre. J’aime OpenRouter et je l’utilise pour plusieurs choses, mais ce n’est pas moins cher
Bien sûr, tout cela repose en partie sur mon expérience personnelle avec tous ces modèles, donc il y a une part de subjectivité. Il peut y avoir des cas où Gemma 31B est meilleur, mais je ne les ai pas trouvés, et j’utilise chacun des 4 modèles mentionnés sur diverses tâches depuis quelques heures après leur publication. Même sur mon hermes, passer de gemma 4 26B à qwen3.5 9B a donné de meilleurs résultats, et ce n’était même pas encore la série 3.6 largement améliorée. Faire ce genre d’analyse sans utiliser ce qui est aujourd’hui considéré comme l’état de l’art sur matériel grand public donne une impression de comparaison obsolète ou de cherry-picking
De même, DeepSeek V4 Flash est assez accessible en tant que modèle local, et avec DwarfStar 4 on peut facilement le faire tourner sur un MacBook 96GB
Le fait de payer pour l’inférence n’est pas un problème en soi, mais les modèles locaux ouvrent des possibilités assez incroyables : usage totalement hors ligne, traitement de données personnelles identifiables ou couvertes par le secret professionnel, et travaux pour lesquels on ne veut absolument pas se soucier d’un dépassement de facturation
Un autre point est qu’on peut créer un service qu’on est certain de pouvoir faire tourner à 100 % en continu, sans craindre une interruption ou un arrêt du fournisseur. Les modèles frontier ont actuellement ce problème. Ma configuration locale Qwen est entièrement prévisible et continuera de fonctionner tant que je peux continuer à obtenir le matériel nécessaire
La stratégie raisonnable consiste à utiliser les deux. Il faut disposer d’outils d’inférence locale et les compléter par des modèles cloud bon marché et coûteux. GPT-5.5 et Opus-4.7 servent pour les tâches de raisonnement délicates où ils excellent, le second étant moins cher via un abonnement Claude, DeepSeek V4 Pro pour les tâches un peu moins délicates, V4 Flash pour la plupart des générations de code, et des modèles locaux lorsqu’il faut des modèles locaux
Ces fournisseurs semblent suivre le prix officiel de la version dense 27B d’Alibaba, ce qui me paraît personnellement un peu cher. Il se peut aussi que les modèles Qwen aient une efficacité d’inférence inférieure à celle des modèles frontier ou de Gemma, et que le coût de prise en charge de longues longueurs de séquence y soit élevé
L’exemple de débogage avec le 27B est bon. J’ai obtenu un succès similaire après avoir acheté un Mac avec 4 fois plus de mémoire, et Qwen 35B A3B s’est soudainement montré très performant. Le 9B sur portable était difficile à qualifier de bon
Il y a ici beaucoup de commentaires qui pointent les problèmes de l’analyse d’origine, mais sur la conclusion plus large, beaucoup considèrent qu’on est proche d’une “distinction sans différence”. En dehors de la confidentialité, si l’on regarde uniquement coût et performances, un développeur individuel a davantage intérêt à utiliser un service hébergé qu’à s’auto-héberger
Au travail, c’est l’employeur qui paie le coût des tokens, et en dehors du travail, la plupart des développeurs jugent qu’un abonnement mensuel à 20/100/200 $ chez leur fournisseur préféré suffit. Du point de vue strict du rapport coût/performance, il n’y a pas beaucoup de développeurs pour qui l’exécution de modèles locaux entre dans les bonnes conditions
Plus important encore, mettre en place un modèle local semble en pratique relever davantage du hobby, de l’apprentissage ou du contrôle de la confidentialité que d’une véritable économie de coûts ou d’un gain de productivité
L’ordinateur personnel a mis fin à l’ancienne ère des terminaux ; la plupart de ces entreprises ont disparu, et seuls IBM et quelques survivants subsistent, mais ils ne sont plus que l’ombre de ce qu’ils étaient
L’auteur ne compare que le coût des tokens de sortie, mais dans une charge de travail agentique classique, les tokens d’entrée représentent une part importante du coût. En inférence locale, les tokens d’entrée sont essentiellement gratuits
Les coûts implicites se limitent alors à un temps plus long avant le premier token, une consommation électrique plus élevée et une vitesse de sortie de tokens plus faible
J’ai regardé quelques sessions agentiques aléatoires dans mon activité OpenRouter, et le coût des entrées était 10 fois supérieur à celui des sorties. Le prompt caching d’OpenRouter est complexe et difficile à fiabiliser, alors que sur le llama-cpp d’un matériel local, c’est pratiquement gratuit la plupart du temps
Si on s’y prend intelligemment, ce n’est pas le cas. Un MacBook M5 Max 128GB est un portable premium à 6 000 dollars, mais il peut faire énormément de choses et constitue une excellente machine principale utilisée toute la journée
En plus, on peut y faire tourner DeepSeek V4 Flash et traiter localement, sans censure ni restrictions, sans connexion Internet et avec des données personnelles très sensibles, des tâches qui ne sont pas triviales. C’est une bonne affaire. Si vous achetez un double Mac Studio 512GB à 25 000 dollars pour vous débarrasser d’OpenAI et compagnie, vous serez déçu à la fois sur les performances et sur le coût
En tant qu’auteur du blog, j’écris ce billet depuis un MacBook M5 Max 128GB
Je ne fais pas tout cela à 100 % en permanence. Je lance des entraînements de machine learning pendant la nuit et je regarde les résultats le matin ; pendant le travail, je l’utilise comme serveur pour faire tourner des modèles locaux ; sur mon temps libre, je fais du montage vidéo et de la modélisation 3D. C’est une machine incroyablement polyvalente, et tout cela se fait en gardant les données sur l’appareil et en conservant un contrôle total sur le workflow
Un autre secret de Polichinelle est que certaines entreprises offrent gratuitement des dizaines de milliers de tokens sur des modèles tout à fait corrects comme Gemini 3.1 ou GLM 4.6
Le texte original compare Gemma à droite et à gauche, puis conclut qu’il vaut mieux payer Anthropic. Anthropic facture 15 $ par million de tokens de sortie, ce qui est 30 à 35 fois plus cher même selon les tarifs OpenRouter
C’est comme comparer le vélo électrique de la maison à la location de vélos électriques, puis conclure qu’il faut louer une Toyota parce qu’on peut aller à peu près à la même vitesse. C’est fatigant de voir autant d’attention accordée à de mauvais articles
L’article commet une grosse erreur à la fin et se trompe gravement. On ne peut pas regarder seulement les tokens générés et appeler ça le coût. En codage agentique, il y a beaucoup de tours, donc on paie non seulement les tokens de sortie, mais aussi tous les tokens d’entrée envoyés à chaque fois. Même si le cache les rend 10 fois moins chers, cela reste vrai. Ce calcul ne représente donc pas du tout correctement le coût d’une API
Deuxièmement, si on utilise une équipe d’agents, on peut fortement augmenter le volume de génération de tokens en local. Une conversation unique est limitée par la bande passante mémoire et n’utilise pas pleinement les ressources de calcul. Si on peut traiter par lots les tokens de plusieurs agents, on peut facilement multiplier par 5 la génération de tokens
Je ne pourrais tout simplement pas fonctionner avec de l’IA cloud. Pour moi, la confidentialité et le contrôle total sont plus importants que la vitesse ou les modèles de pointe
Pour moi, c’est dans la même catégorie que le solaire sur le toit. Si vous êtes le genre de personne qui trouve une tranquillité d’esprit dans le contrôle de son infrastructure et la réduction de ses dépendances, il n’est pas indispensable que l’économie stricte soit parfaite