Le nouveau AI HAT de Raspberry Pi ajoute 8 Go de RAM pour les LLM locaux
(jeffgeerling.com)- Le Raspberry Pi AI HAT+ 2 embarque un NPU Hailo 10H et 8 Go de RAM LPDDR4X, ce qui lui permet d’exécuter de manière autonome de l’inférence LLM locale
- Il offre une consommation maximale de 3 W et des performances de 40 TOPS (INT8), mais lors des tests réels il s’est montré plus lent que le CPU du Pi 5
- La limite de puissance (3 W) et la capacité mémoire (8 Go) créent un goulot d’étranglement, si bien qu’un Pi 5 16 Go est plus efficace pour exécuter des modèles de taille intermédiaire
- En vision par ordinateur (Computer Vision), il a montré une vitesse 10 fois supérieure à celle du précédent AI HAT, mais des problèmes de compatibilité logicielle et des erreurs lors de l’exécution simultanée de modèles sont apparus
- En dehors des cas où il faut combiner vision et inférence dans un environnement basse consommation, sa valeur est surtout celle d’une carte de développement ou d’une plateforme d’expérimentation
Principales spécifications et caractéristiques de l’AI HAT+ 2
- Le nouveau modèle est proposé à 130 dollars et inclut un NPU Hailo 10H ainsi que 8 Go de RAM LPDDR4X
- Le Hailo 10H offre 40 TOPS en inférence INT8 et 26 TOPS en vision INT4
- Il peut exécuter des LLM de manière indépendante sans monopoliser le CPU ni la mémoire système du Pi
- Le problème de RAM non extensible demeure, mais son usage comme coprocesseur IA permet de réduire la pression sur la mémoire
- Il est jugé moins cher et plus compact qu’une connexion eGPU, et plus pratique que les NPU intégrés aux « AI PC » de Microsoft
Évaluation des performances réelles
- Les tests ont comparé l’exécution des mêmes modèles sur un Raspberry Pi 5 avec 8 Go de RAM, une fois sur CPU et une fois sur NPU
- Sur la plupart des modèles, le CPU du Pi 5 s’est montré plus rapide que le Hailo 10H
- Le seul cas donnant un résultat proche est le modèle Qwen2.5 Coder 1.5B
- Le Hailo 10H est économe en énergie, mais sa performance est limitée par une enveloppe de puissance de 3 W
- Le SoC du Pi 5 peut consommer jusqu’à 10 W
Limites d’exécution des LLM et cas de Qwen 30B
- Les 8 Go de RAM constituent la contrainte la plus importante pour l’exécution des LLM
- Les modèles de taille intermédiaire demandent 10 à 12 Go de RAM, ce qui rend un Pi 5 16 Go plus adapté
- ByteShape a réussi à faire tourner Qwen3 30B A3B Instruct après l’avoir compressé à 10 Go pour l’adapter à un Pi 5 16 Go
- Malgré une perte de qualité, il reste possible d’effectuer des tâches de base comme la génération d’applications simples
- Avec llama.cpp, l’exécution du modèle sur Pi 5 reste lente, mais permet malgré tout des usages pratiques avec un modèle local
Performances en vision et problèmes logiciels
- Sur les tâches de Computer Vision, il a montré une vitesse de traitement 10 fois supérieure à celle du CPU du Pi
- Lors d’un test avec le Camera Module 3, il a correctement reconnu un clavier, un écran, un téléphone portable, une souris, etc.
- Cependant, le code d’exemple Hailo (
hailo-rpi5-examples) ne prend pas encore correctement en charge l’AI HAT+ 2- En configuration manuelle, le chargement du modèle échoue ou provoque des erreurs
- Lors de l’exécution simultanée de modèles (vision + LLM), des erreurs de segmentation et des problèmes de
device not readysont apparus- Faute d’exemple de fonctionnement fourni par Hailo, il n’a pas été possible de terminer les tests
Conclusion et cas d’usage possibles
- Les 8 Go de RAM sont utiles, mais le Pi 5 16 Go reste un choix plus rapide et plus flexible
- Son intérêt pratique existe surtout lorsqu’il faut combiner traitement visuel et inférence dans un environnement basse consommation
- Une combinaison avec l’AI Camera (70 dollars) ou l’AI HAT+ existant (110 dollars) peut être plus efficace
- Il peut servir à l’exécution de petits LLM (moins de 10 W) ou comme kit de développement pour des appareils basés sur le Hailo 10H
- Globalement, le matériel est en avance mais le logiciel manque de maturité, et le produit est perçu comme orienté vers des usages de niche
1 commentaires
Avis de Hacker News
En quelques minutes, j’ai vu à la fois l’avis que le AI HAT 8GB pour RPi était formidable, et l’avis que mon MacBook M2 MAX 96GB ne servait à rien pour les LLM
Consolation tout de même : ce dernier reste aussi un excellent ordinateur portable
On dirait que Raspberry a perdu la « magie » et le sens du but de l’époque des premiers Pi
Au début, ils ont créé un nouveau marché, mais aujourd’hui on a l’impression qu’ils se lancent dans un domaine déjà saturé
Je comprends bien sûr la volonté de se diversifier pour survivre, mais ils ne semblent plus capables de recréer ce « moment Raspberry Pi » d’autrefois
Comme des solutions telles que Frigate ont stimulé les ventes de Coral TPU, il peut certes y avoir une demande cette fois aussi, mais la proposition de valeur unique paraît insuffisante
On a désormais l’impression que RPi vise le marché commercial parce qu’il est moins cher que les cartes embarquées industrielles
On sent que la cible principale est devenue les entreprises plutôt que les consommateurs
Les autres SBC avaient un logiciel de qualité désastreuse, et la combinaison avec Raspbian a été la vraie innovation
RPi continue de combler cette niche
Le Pico pour les petits projets, les nouveaux Pi pour les plus gros, et les anciens Pi ainsi que les Zero sont toujours en vente
Les produits liés à l’IA prolongent cette logique : c’est une extension naturelle pour ceux qui faisaient déjà de l’IA sur Pi5
L’essence du Pi, c’est GPIO + informatique généraliste, et désormais l’IA en fait aussi partie
Ce qu’on peut faire avec l’IA locale est devenu étonnamment vaste, ouvrant de nouveaux usages comme la navigation autonome de drones et de robots
En réalité, ce n’est pas si impressionnant
Faire tourner de l’IA avec 8GB de RAM sur un Pi reste plutôt décevant
Au Royaume-Uni, je n’ai jamais vu le Hailo HAT présenté comme destiné aux LLM
Il était surtout utilisé pour la détection d’objets en temps réel dans la vidéo, et j’aimerais moi-même l’essayer pour détecter des animaux ou des visiteurs à la maison et dans le jardin
Les versions récentes de Pimonori mentionnent bien la prise en charge des LLM et des VLM, mais cela me semble être un usage plus réaliste
Au point qu’on en plaisante avec des remarques du genre « 8GB ? Un LLM pour fourmis ? »
Ce n’est pas adapté aux charges lourdes, mais pour une simple génération de texte, c’est largement suffisant
C’est un terrain d’expérimentation pour des LLM ultra-compacts et spécialisés
Le vrai problème, c’est que le gain en traitement de vision reste faible au regard du prix élevé, avec en plus un support logiciel limité
Il y a encore quelques années, ce type de produit aurait simplement été appelé accélérateur ML
Mais aujourd’hui, l’étiquette « IA » change les attentes, ce qui explique sans doute les avis partagés
Je ne suis pas sûr qu’un petit LLM soit utile hors embeddings ou entraînement
Pour l’entraînement, on peut avoir mieux pour moins cher, et pour les embeddings, c’est seulement lent et coûteux
Même de petits modèles peuvent approcher les performances de modèles généralistes bien plus gros s’ils sont fine-tunés sur des données spécialisées
Idée intéressante, mais pour cet usage, le Jetson Orin Nano semble être un meilleur choix
Son défaut est toutefois la RAM partagée, qui fait perdre environ 1GB à cause de l’overhead du système d’exploitation
Dire qu’on peut exécuter un LLM ne veut pas dire qu’il est raisonnable de le faire
C’est un bon exemple de l’écart total entre les chiffres de la fiche technique et l’expérience réelle
Du point de vue de l’edge computing, cette tentative constitue une avancée significative pour l’écosystème RPi
Avec un accélérateur d’inférence basse consommation intégré, on peut mettre en œuvre de l’IA locale sans cloud
On en est encore aux débuts, mais c’est la bonne direction pour de vraies charges de travail edge