- Beaucoup d’argent est investi dans le développement d’outils d’IA, et de nombreux services fonctionnent en acceptant des pertes
- Les services des grandes entreprises technologiques sont proposés gratuitement ou à bas prix pour dominer le marché, et au final il est très probable que « les modèles d’IA soient manipulés par la publicité ou des intérêts politiques »
- La solution est de « faire tourner son propre modèle d’IA »
- Des entreprises comme DeepSeek bouleversent le marché en publiant gratuitement leurs modèles. Ces modèles peuvent être débarrassés de leurs biais et exécutés sur du matériel personnel
Les défis de la construction d’un ordinateur IA personnel
- Pour exécuter un LLM en local, il faut une carte graphique Nvidia puissante ou un appareil Apple
- Plus il y a de mémoire, plus on peut exécuter de grands modèles, ce qui améliore fortement la qualité des sorties
- GPU Nvidia ou appareil Apple requis (les deux sont coûteux)
- Au minimum 24 Go ou plus de VRAM ou de RAM nécessaires
- Comment réduire les coûts : acheter du matériel d’occasion est une possibilité, et la bande passante mémoire ainsi que d’autres spécifications sont aussi importantes
Processus de construction d’un ordinateur IA à faible coût
- Objectif : construire un système capable d’exécuter des modèles d’IA en local pour environ 1 700 euros
- Configuration finale :
- Station de travail HP Z440 (Xeon 12 cœurs, 128 Go de RAM)
- 2 GPU Nvidia Tesla P40 (24 Go de VRAM chacun, 48 Go au total)
- Alimentation NZXT C850 Gold
- Gainward GT 1030 (GPU factice pour la sortie d’affichage)
- Ventilateurs de refroidissement personnalisés et adaptateurs d’alimentation
Principaux problèmes techniques et solutions
1. Problème de refroidissement des GPU serveur
- Le Tesla P40 est conçu pour un environnement serveur et ne dispose pas de ventilateur intégré
- Solution : support de ventilateur imprimé en 3D et réglage du flux d’air forcé
- Ajuster la vitesse des ventilateurs pour trouver un bon équilibre entre température et bruit
2. Problèmes de compatibilité de la station de travail HP
- HP limite l’usage à ses propres composants
- Nécessité d’acheter en plus des adaptateurs pour l’alimentation et les connexions à la carte mère
3. Problème de démarrage du BIOS
- Le Tesla P40 n’a pas de port de sortie d’affichage → démarrage impossible
- Problème résolu en ajoutant un GPU GT 1030 bon marché
Résultats des tests de performances
1. Vitesse d’inférence (tokens par seconde)
- Mistral-Small (modèle 24B) : 15.23
- Gemma2 (modèle 27B) : 13.90
- Qwen2.5-Coder (modèle 32B) : 10.75
- Llama3.3 (modèle 70B) : 5.35
- DeepSeek-R1 (modèle 70B) : 5.30
2. Consommation électrique
- L’ordinateur consomme environ 80 W au repos
- Lors du chargement d’un modèle 32B, il monte à 123 W, puis jusqu’à 241 W en exécution
- Pour un modèle 70B, la consommation atteint 166 W au chargement et jusqu’à 293 W pendant l’exécution
- Autrement dit, plus le modèle est grand, plus la consommation électrique augmente. Comme le fait de garder un modèle chargé sur le GPU consomme aussi beaucoup d’énergie, il est important d’adopter une stratégie consistant à ne conserver les modèles actifs qu’en cas de besoin
Conclusion : construire un serveur IA personnel, un choix pertinent ?
- Construction réussie d’un système d’IA totalement indépendant
- Possibilité d’exécuter en local des modèles de taille intermédiaire à un coût relativement abordable
- Satisfaction de pouvoir faire tourner des modèles d’IA sans matériel récent et onéreux
- Mise en place d’un système flexible capable de s’adapter aux évolutions futures des technologies de l’IA
3 commentaires
Il y avait même une configuration pour faire tourner R1 sans GPU, uniquement avec le CPU et le SSD, mais ça me paraît un peu discutable.
| Pour le même prix (1 799 dollars), on peut acheter un Mac Mini avec 48 Go de mémoire unifiée et une puce M4 Pro. Il consomme peu d’énergie, est silencieux et offrira probablement de meilleures performances que cette configuration. J’ai pris plaisir à lire cet article, mais dans la même situation, j’achèterais un Mac.
C’est exactement ce que je voulais dire, et cet avis figure déjà dans les commentaires de Hacker News.
Le coût des tokens baisse de plus en plus, donc à moins de vouloir faire du fine-tuning ou générer des images, je me dis qu’il n’y a pas vraiment de raison de se donner cette peine...
Avis sur Hacker News
J’ai fait quelque chose de similaire en achetant des K80 et des M40 à bas prix sur eBay. Les pilotes du K80 ont été un vrai calvaire. Les 24 Go de VRAM pour 50 dollars sont séduisants, mais je ne le recommande pas à cause des problèmes de pilotes. J’avais une alimentation de 1 200 watts dans une station de travail HP, ce qui m’a permis d’installer les GPU. Comme ces GPU n’ont pas de refroidissement intégré, j’ai fabriqué des supports avec une imprimante 3D et fixé des ventilateurs Noctua pour les faire tourner 24/7. Ça a beaucoup mieux marché que prévu et la température n’a jamais dépassé 60 degrés. Le CPU a aussi profité de cette approche. Les ventilateurs sont placés à l’avant et à l’arrière du boîtier : celui de l’avant aspire l’air et celui de l’arrière l’évacue. Il y a aussi deux ventilateurs devant les GPU. J’ai acheté la station de travail reconditionnée pour 600 dollars, les GPU pour 120 dollars, et les ventilateurs pour environ 60 dollars. Je n’ai pas encore mis en ligne les fichiers STL, car c’est un cas d’usage très spécifique.
Pour le même prix (1 799 dollars), on peut acheter un Mac Mini avec 48 Go de mémoire unifiée et une puce m4 pro. Il consomme peu, est silencieux et sera probablement plus performant que cette configuration. J’ai pris plaisir à lire cet article, mais dans la même situation, j’achèterais le Mac.
J’aimerais monter une machine pour faire tourner des LLM en local. J’ai testé des modèles sur un MBP M3 Max avec 128 Go de RAM et je veux un serveur local dédié. J’aimerais essayer Proxmox. Je fais déjà tourner OpenWebUI et LibreChat sur un « serveur d’applications » local et j’en suis content. Mais chaque fois que j’envisage d’acheter du matériel plus puissant, j’ai l’impression que le ROI n’est pas au rendez-vous, surtout dans un secteur qui évolue aussi vite. La confidentialité compte, mais il est difficile de battre le coût de l’inférence en ligne.
Les modèles hébergés en local sont mignons, amusants, capables d’écrire des blagues et d’effectuer des tâches personnelles. Mais ils restent en retrait face aux modèles accessibles via API. J’aimerais pouvoir exécuter deepseek-r1-678b en local, mais pour l’instant, les coûts d’exploitation dépassent les coûts d’investissement.
Le juste milieu, c’est de louer un VPS GPU quand on en a besoin. On peut utiliser un H100 pour 2 dollars de l’heure. Ce n’est pas aussi privé qu’un environnement entièrement local et hors ligne, mais c’est mieux qu’une API SASS. J’espère que d’ici 1 à 3 ans, il deviendra rentable d’exécuter localement quelque chose d’utile.
Comme d’autres l’ont dit, on peut avoir un Mac puissant pour le même prix, avec une consommation électrique plus faible. Je me demande pourquoi Apple n’entre pas sur le marché des puces IA pour l’entreprise afin de concurrencer Nvidia. Apple devrait être capable de concevoir son propre ASIC.
« Posséder sa propre IA », c’est un excellent hobby à la maison, mais on finit par y consacrer beaucoup de temps et d’argent côté matériel. Je recommande de regarder la dream machine de Mitko Vasilev. Sans cas d’usage clair, on n’a besoin que de petits modèles ou d’une génération de tokens lente. Si l’objectif est de construire et d’apprendre autour de l’IA, il est plus économique de louer des GPU/TPU quand on en a besoin.
Je ne considère pas que l’achat de 2 cartes Nvidia Tesla P40 pour 660 euros soit « dans le budget ». On peut faire tourner des modèles « petits » ou « moyens » avec des cartes moins chères. Une Nvidia Geforce RTX 3060 se trouve sur le marché de l’occasion pour 200 à 250 euros. 48 Go de VRAM, c’est trop pour parler d’un budget serré. Cette configuration vise plutôt des semi-professionnels ou des professionnels. Il faut faire des compromis pour utiliser des modèles moyens ou petits, mais faire des compromis fait aussi partie d’une configuration à budget limité.
Le problème avec ce type d’investissement, c’est qu’un meilleur modèle sortira le mois suivant. Il pourrait nécessiter plus de RAM, ou au contraire moins que le meilleur modèle actuel. L’infrastructure cloud permet de contourner ce problème. Le coût à l’exécution est plus élevé, mais si l’usage est intermittent, cela peut faire économiser de l’argent. Je me demande comment les utilisateurs de HN gèrent ça.
Je me demande si quelqu’un a déjà essayé de faire de l’inférence LLM avec un cluster de SBC. Par exemple, le Radxa ROCK 5C dispose de 32 Go de mémoire et d’un NPU pour environ 300 euros. Je ne connais pas très bien l’architecture des LLM modernes, mais il devrait être possible de répartir les couches entre plusieurs nœuds. Il n’y a pas tant de données que ça à transférer. On n’atteindra pas les performances d’un Mac moderne ou d’un GPU Nvidia, mais cela pourrait être une façon acceptable et peu coûteuse d’obtenir beaucoup de mémoire. Je me demande aussi où en est l’inférence CPU + GPU aujourd’hui. Le traitement du prompt est limité par le calcul et la mémoire, alors que la génération de tokens est surtout limitée par la mémoire. Je me demande s’il existe des outils permettant de charger quelques couches sur le GPU pour le traitement initial du prompt, puis de basculer ensuite vers une inférence sur CPU. Lors de ma dernière expérimentation, il était possible d’exécuter certaines couches sur le GPU et d’autres sur le CPU. Il me semble que ce serait plus efficace de tout exécuter sur le GPU, puis de basculer sur le CPU quand la génération de tokens devient limitée par la mémoire.