Lemonade by AMD : un serveur LLM local open source rapide exploitant GPU et NPU
(lemonade-server.ai)- Serveur d’IA local pris en charge par AMD, une plateforme open source qui traite rapidement texte, image et audio en exploitant GPU et NPU
- Met l’accent sur l’exécution en local et la protection de la vie privée, et reste compatible avec le standard de l’API OpenAI, ce qui permet une intégration immédiate avec diverses applications
- Offre un environnement d’IA local pratique grâce à un backend léger en C++, une configuration matérielle automatique et l’exécution simultanée de plusieurs modèles
- Prend en charge Chat, Vision, Image Generation, Transcription, Speech Generation via une API unifiée
- Fournit le même environnement sur Windows, Linux, macOS (bêta), avec une GUI intégrée qui facilite le téléchargement et le basculement entre modèles
Caractéristiques principales
-
Conception open source et centrée sur le local
- Développé autour de la philosophie selon laquelle l’IA locale doit être libre, ouverte, rapide et privée
- Construit de manière proactive par la communauté de l’IA locale, et exécutable sur n’importe quel PC
- Met l’accent sur la protection de la vie privée et un environnement d’exécution indépendant
-
Installation rapide et architecture légère
- One Minute Install configure automatiquement toute la stack
- Le backend natif en C++ est un service léger d’environ 2 Mo
- La fonction de configuration matérielle automatique configure automatiquement les environnements GPU et NPU
-
Large compatibilité
- La compatibilité avec l’API OpenAI permet une intégration immédiate avec des centaines d’applications
- Prend en charge divers moteurs d’inférence comme llama.cpp, Ryzen AI SW et FastFlowLM
- L’exécution simultanée de plusieurs modèles permet de faire tourner plusieurs modèles en parallèle
-
API unifiée
- Un seul service local prend en charge Chat, Vision, Image Generation, Transcription et Speech Generation
- Fourni sous forme d’API REST standard ; par exemple, le point de terminaison
POST /api/v1/chat/completionspermet d’appeler un modèle conversationnel - Dans l’exemple de requête,
"model": "Qwen3-0.6B-GGUF"est utilisé pour interroger la population de Paris
-
Interface utilisateur et écosystème
- Une application GUI intégrée permet de télécharger, tester et changer de modèle rapidement
- Basé sur le standard de l’API OpenAI, avec une compatibilité immédiate avec diverses applications
- Amélioration continue et extension des fonctionnalités grâce à la participation de la communauté
Spécifications techniques et exemples d’usage
-
Matériel et performances
- Dans un environnement avec 128 Go de RAM unifiée, il est possible d’exécuter de grands modèles comme gpt-oss-120b et Qwen-Coder-Next
- L’option
--no-mmappermet de réduire le temps de chargement et d’augmenter la taille du contexte (au-delà de 64)
-
Fonctions image et audio
- Exemple de génération d’image : « une carafe de limonade dans un style pictural Renaissance »
- Exemple audio : “Hello, I am your AI assistant. What can I do for you today?”
Dernières versions
- Lemonade continue d’être amélioré en permanence, avec de nouvelles fonctionnalités et des gains de performance fournis via le flux de releases
- Les nouvelles fonctionnalités et les points forts peuvent être consultés sur le site officiel
1 commentaires
Avis Hacker News
J’utilise Lemonade depuis presque un an. Sur Strix Halo, j’utilise uniquement ça, sans autre outil. Les AMD Strix Halo Toolboxes de kyuz0 sont pas mal aussi, mais Lemonade gère le TTS, le STT, la génération de texte et d’images, ainsi que l’édition d’images. Il prend en charge divers backends comme ROCm, Vulkan, CPU, GPU et NPU, et le rythme de développement est pratique et rapide. Si vous avez du matériel AMD, je le recommande vivement.
Grâce aux endpoints compatibles OpenAI et Ollama, on peut aussi l’utiliser directement avec VSCode Copilot ou Open Web UI
Je fais tourner des LLM locaux sur une 7900 XTX depuis quelques mois, et l’expérience ROCm a été assez rude. Le fait qu’AMD sorte un serveur d’inférence officiel pour résoudre les problèmes de pilotes et de dépendances est une grosse avancée. Cela dit, je me demande si le support NPU offre réellement un débit significatif. Dans mes tests, sauf pour les petits modèles, c’était un goulot d’étranglement
Je me demande si le nom « Lemonade » veut dire qu’on tire le maximum des citrons
Lemonade donne l’impression de se situer entre Ollama et LM Studio. Ce n’est pas juste du model serving, c’est intéressant de voir l’accent mis sur un runtime intégré. L’idée clé semble être l’orchestration de plusieurs modalités à la fois — texte, image, audio, etc. Je me demande si, en pratique, c’est une abstraction ou simplement un assemblage de plusieurs outils. Je me demande aussi si l’optimisation AMD/NPU ne risque pas de réduire la portabilité
Je le fais tourner sur un NAS avec un assistant domestique. En plus de Strix Halo, je gère aussi séparément un serveur avec carte CUDA
C’est dommage que les modèles et kernels NPU utilisés par Lemonade soient propriétaires. J’aimerais qu’il y ait plus de support open source
La vraie force de Lemonade, c’est l’intégration multimodale. Trois services qui, séparément, exigeraient chacun des API différentes et une gestion distincte des modèles — génération de texte, génération d’images, reconnaissance vocale — peuvent être servis par un seul serveur via des endpoints compatibles OpenAI. Pour le prototypage, le gain de qualité est important.
Le NPU est utile pour de petits modèles toujours actifs ou pour déporter le prefill, mais il est un peu surestimé pour les chatbots classiques.
Si AMD parvient à rendre transparent l’ordonnancement GPU+NPU pour que les développeurs n’aient pas à se soucier du matériel, cela pourrait devenir le choix par défaut
Je fais tourner Lemonade sur Strix Halo. Il inclut plusieurs backends comme diffusion et llama, mais moi je n’utilise que le build ROCm de llama.cpp (lien). Je ne touche ni aux images ni à l’audio. Avec GPT OSS 120B, j’obtiens environ 50 tokens par seconde. Le NPU est destiné à des modèles toujours actifs à basse consommation, donc il n’apporte pas grand-chose pour les chatbots classiques
J’ai lu le site web et l’annonce, mais je ne vois pas clairement ce qu’est exactement Lemonade. Est-ce un remplaçant de LM Studio ? Est-ce qu’il prend aussi en charge MLX ou Metal sur Mac ? Si l’optimisation AMD est au cœur du projet, je voudrais savoir s’il est désavantagé sur d’autres GPU
Je trouve surprenant que le guide d’installation du serveur Linux ne propose pas d’option Docker/Podman. Il n’y a que Snap/PPA et RPM. Peut-être que cela signifie que les utilisateurs de conteneurs doivent compiler eux-mêmes
Je me demande si quelqu’un l’a comparé à Ollama. J’utilise bien Ollama avec une 9070 XT sur ROCm 7.4