Le nouveau AI HAT de Raspberry Pi ajoute 8 Go de RAM pour les LLM locaux

(jeffgeerling.com)

1 points par GN⁺ 2026-01-17 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Le Raspberry Pi AI HAT+ 2 embarque un NPU Hailo 10H et 8 Go de RAM LPDDR4X, ce qui lui permet d’exécuter de manière autonome de l’inférence LLM locale
Il offre une consommation maximale de 3 W et des performances de 40 TOPS (INT8), mais lors des tests réels il s’est montré plus lent que le CPU du Pi 5
La limite de puissance (3 W) et la capacité mémoire (8 Go) créent un goulot d’étranglement, si bien qu’un Pi 5 16 Go est plus efficace pour exécuter des modèles de taille intermédiaire
En vision par ordinateur (Computer Vision), il a montré une vitesse 10 fois supérieure à celle du précédent AI HAT, mais des problèmes de compatibilité logicielle et des erreurs lors de l’exécution simultanée de modèles sont apparus
En dehors des cas où il faut combiner vision et inférence dans un environnement basse consommation, sa valeur est surtout celle d’une carte de développement ou d’une plateforme d’expérimentation

Principales spécifications et caractéristiques de l’AI HAT+ 2

Le nouveau modèle est proposé à 130 dollars et inclut un NPU Hailo 10H ainsi que 8 Go de RAM LPDDR4X
- Le Hailo 10H offre 40 TOPS en inférence INT8 et 26 TOPS en vision INT4
- Il peut exécuter des LLM de manière indépendante sans monopoliser le CPU ni la mémoire système du Pi
Le problème de RAM non extensible demeure, mais son usage comme coprocesseur IA permet de réduire la pression sur la mémoire
Il est jugé moins cher et plus compact qu’une connexion eGPU, et plus pratique que les NPU intégrés aux « AI PC » de Microsoft

Les tests ont comparé l’exécution des mêmes modèles sur un Raspberry Pi 5 avec 8 Go de RAM, une fois sur CPU et une fois sur NPU
- Sur la plupart des modèles, le CPU du Pi 5 s’est montré plus rapide que le Hailo 10H
- Le seul cas donnant un résultat proche est le modèle Qwen2.5 Coder 1.5B
Le Hailo 10H est économe en énergie, mais sa performance est limitée par une enveloppe de puissance de 3 W
- Le SoC du Pi 5 peut consommer jusqu’à 10 W

Les 8 Go de RAM constituent la contrainte la plus importante pour l’exécution des LLM
- Les modèles de taille intermédiaire demandent 10 à 12 Go de RAM, ce qui rend un Pi 5 16 Go plus adapté
ByteShape a réussi à faire tourner Qwen3 30B A3B Instruct après l’avoir compressé à 10 Go pour l’adapter à un Pi 5 16 Go
- Malgré une perte de qualité, il reste possible d’effectuer des tâches de base comme la génération d’applications simples
Avec llama.cpp, l’exécution du modèle sur Pi 5 reste lente, mais permet malgré tout des usages pratiques avec un modèle local

Sur les tâches de Computer Vision, il a montré une vitesse de traitement 10 fois supérieure à celle du CPU du Pi
- Lors d’un test avec le Camera Module 3, il a correctement reconnu un clavier, un écran, un téléphone portable, une souris, etc.
Cependant, le code d’exemple Hailo (hailo-rpi5-examples) ne prend pas encore correctement en charge l’AI HAT+ 2
- En configuration manuelle, le chargement du modèle échoue ou provoque des erreurs
Lors de l’exécution simultanée de modèles (vision + LLM), des erreurs de segmentation et des problèmes de device not ready sont apparus
- Faute d’exemple de fonctionnement fourni par Hailo, il n’a pas été possible de terminer les tests

Les 8 Go de RAM sont utiles, mais le Pi 5 16 Go reste un choix plus rapide et plus flexible
Son intérêt pratique existe surtout lorsqu’il faut combiner traitement visuel et inférence dans un environnement basse consommation
Une combinaison avec l’AI Camera (70 dollars) ou l’AI HAT+ existant (110 dollars) peut être plus efficace
Il peut servir à l’exécution de petits LLM (moins de 10 W) ou comme kit de développement pour des appareils basés sur le Hailo 10H
Globalement, le matériel est en avance mais le logiciel manque de maturité, et le produit est perçu comme orienté vers des usages de niche