11 points par GN⁺ 28 일 전 | 1 commentaires | Partager sur WhatsApp
  • Serveur d’IA local pris en charge par AMD, une plateforme open source qui traite rapidement texte, image et audio en exploitant GPU et NPU
  • Met l’accent sur l’exécution en local et la protection de la vie privée, et reste compatible avec le standard de l’API OpenAI, ce qui permet une intégration immédiate avec diverses applications
  • Offre un environnement d’IA local pratique grâce à un backend léger en C++, une configuration matérielle automatique et l’exécution simultanée de plusieurs modèles
  • Prend en charge Chat, Vision, Image Generation, Transcription, Speech Generation via une API unifiée
  • Fournit le même environnement sur Windows, Linux, macOS (bêta), avec une GUI intégrée qui facilite le téléchargement et le basculement entre modèles

Caractéristiques principales

  • Conception open source et centrée sur le local

    • Développé autour de la philosophie selon laquelle l’IA locale doit être libre, ouverte, rapide et privée
    • Construit de manière proactive par la communauté de l’IA locale, et exécutable sur n’importe quel PC
    • Met l’accent sur la protection de la vie privée et un environnement d’exécution indépendant
  • Installation rapide et architecture légère

    • One Minute Install configure automatiquement toute la stack
    • Le backend natif en C++ est un service léger d’environ 2 Mo
    • La fonction de configuration matérielle automatique configure automatiquement les environnements GPU et NPU
  • Large compatibilité

    • La compatibilité avec l’API OpenAI permet une intégration immédiate avec des centaines d’applications
    • Prend en charge divers moteurs d’inférence comme llama.cpp, Ryzen AI SW et FastFlowLM
    • L’exécution simultanée de plusieurs modèles permet de faire tourner plusieurs modèles en parallèle
  • API unifiée

    • Un seul service local prend en charge Chat, Vision, Image Generation, Transcription et Speech Generation
    • Fourni sous forme d’API REST standard ; par exemple, le point de terminaison POST /api/v1/chat/completions permet d’appeler un modèle conversationnel
    • Dans l’exemple de requête, "model": "Qwen3-0.6B-GGUF" est utilisé pour interroger la population de Paris
  • Interface utilisateur et écosystème

    • Une application GUI intégrée permet de télécharger, tester et changer de modèle rapidement
    • Basé sur le standard de l’API OpenAI, avec une compatibilité immédiate avec diverses applications
    • Amélioration continue et extension des fonctionnalités grâce à la participation de la communauté

Spécifications techniques et exemples d’usage

  • Matériel et performances

    • Dans un environnement avec 128 Go de RAM unifiée, il est possible d’exécuter de grands modèles comme gpt-oss-120b et Qwen-Coder-Next
    • L’option --no-mmap permet de réduire le temps de chargement et d’augmenter la taille du contexte (au-delà de 64)
  • Fonctions image et audio

    • Exemple de génération d’image : « une carafe de limonade dans un style pictural Renaissance »
    • Exemple audio : “Hello, I am your AI assistant. What can I do for you today?”

Dernières versions

  • Lemonade continue d’être amélioré en permanence, avec de nouvelles fonctionnalités et des gains de performance fournis via le flux de releases
  • Les nouvelles fonctionnalités et les points forts peuvent être consultés sur le site officiel

1 commentaires

 
GN⁺ 28 일 전
Avis Hacker News
  • J’utilise Lemonade depuis presque un an. Sur Strix Halo, j’utilise uniquement ça, sans autre outil. Les AMD Strix Halo Toolboxes de kyuz0 sont pas mal aussi, mais Lemonade gère le TTS, le STT, la génération de texte et d’images, ainsi que l’édition d’images. Il prend en charge divers backends comme ROCm, Vulkan, CPU, GPU et NPU, et le rythme de développement est pratique et rapide. Si vous avez du matériel AMD, je le recommande vivement.
    Grâce aux endpoints compatibles OpenAI et Ollama, on peut aussi l’utiliser directement avec VSCode Copilot ou Open Web UI

    • Je me demande quel gain de vitesse on obtiendrait en faisant tourner le modèle Qwen3.5-122B sur Strix Halo avec Lemonade, par rapport à llama.cpp basé sur Vulkan
    • Je me demande aussi si quelqu’un l’a essayé avec des agents ou Claw, et quels modèles ont été utilisés
  • Je fais tourner des LLM locaux sur une 7900 XTX depuis quelques mois, et l’expérience ROCm a été assez rude. Le fait qu’AMD sorte un serveur d’inférence officiel pour résoudre les problèmes de pilotes et de dépendances est une grosse avancée. Cela dit, je me demande si le support NPU offre réellement un débit significatif. Dans mes tests, sauf pour les petits modèles, c’était un goulot d’étranglement

    • Je suis curieux de savoir ce qui était si difficile. De mon côté, je fais tourner des modèles locaux avec Ollama sur une RX 7900 XTX et je n’ai presque pas eu de problèmes liés à ROCm. La seule limite frustrante, c’est les 24 Go de VRAM. J’envisage de passer à une Radeon Pro pour avoir plus de VRAM
    • Sur le noyau 7.0.0, les performances Vulkan étaient bien meilleures que ROCm, avec un gain de vitesse de plus de 20 %
    • Le NPU sert à l’efficacité énergétique sur batterie. Ce n’est pas un remplacement du GPU
  • Je me demande si le nom « Lemonade » veut dire qu’on tire le maximum des citrons

    • Comme « L-L-M » se prononce un peu comme « lemon », ça ressemble à un jeu de mots du type LLM-aid → lemonade
    • Si la vie continue de vous donner des citrons, autant fabriquer des citrons explosifs
    • Moi, j’utilise uniquement du matériel AMD pour l’inférence locale. Entre les pilotes open source, l’efficacité énergétique et le prix, je trouve qu’en tant que consommateur c’est meilleur que Nvidia
    • Apparemment, le nom « Lemonsqueeze » a été écarté parce qu’il était trop violent
  • Lemonade donne l’impression de se situer entre Ollama et LM Studio. Ce n’est pas juste du model serving, c’est intéressant de voir l’accent mis sur un runtime intégré. L’idée clé semble être l’orchestration de plusieurs modalités à la fois — texte, image, audio, etc. Je me demande si, en pratique, c’est une abstraction ou simplement un assemblage de plusieurs outils. Je me demande aussi si l’optimisation AMD/NPU ne risque pas de réduire la portabilité

    • Il regroupe plusieurs outils, ainsi que des fonctions de sélection et de gestion des modèles. On peut l’installer avec des backends CPU ou Vulkan, mais il ne prend en charge nativement que les builds ROCm et le NPU AMD. Pour le faire tourner avec CUDA, il faut surcharger la version de llama.cpp, ce qui complique la maintenance. Pour lancer simplement des modèles locaux sur une machine AMD, c’est le plus facile.
      Je le fais tourner sur un NAS avec un assistant domestique. En plus de Strix Halo, je gère aussi séparément un serveur avec carte CUDA
  • C’est dommage que les modèles et kernels NPU utilisés par Lemonade soient propriétaires. J’aimerais qu’il y ait plus de support open source

    • La documentation indique qu’on peut « enregistrer des modèles Hugging Face sur Lemonade Server »
    • J’ai acheté mon matériel en sachant que je pourrais peut-être ne pas pouvoir utiliser le NPU, mais malgré ça, entendre ce genre de nouvelles me contrarie
  • La vraie force de Lemonade, c’est l’intégration multimodale. Trois services qui, séparément, exigeraient chacun des API différentes et une gestion distincte des modèles — génération de texte, génération d’images, reconnaissance vocale — peuvent être servis par un seul serveur via des endpoints compatibles OpenAI. Pour le prototypage, le gain de qualité est important.
    Le NPU est utile pour de petits modèles toujours actifs ou pour déporter le prefill, mais il est un peu surestimé pour les chatbots classiques.
    Si AMD parvient à rendre transparent l’ordonnancement GPU+NPU pour que les développeurs n’aient pas à se soucier du matériel, cela pourrait devenir le choix par défaut

  • Je fais tourner Lemonade sur Strix Halo. Il inclut plusieurs backends comme diffusion et llama, mais moi je n’utilise que le build ROCm de llama.cpp (lien). Je ne touche ni aux images ni à l’audio. Avec GPT OSS 120B, j’obtiens environ 50 tokens par seconde. Le NPU est destiné à des modèles toujours actifs à basse consommation, donc il n’apporte pas grand-chose pour les chatbots classiques

    • Même un petit NPU peut déporter une partie des calculs de prefill. En revanche, à l’étape de décodage, tout dépend de la bande passante mémoire et du support des opérations internes. Par exemple, l’Apple Neural Engine ne prend en charge que les opérations INT8/FP16, donc l’aide reste limitée
  • J’ai lu le site web et l’annonce, mais je ne vois pas clairement ce qu’est exactement Lemonade. Est-ce un remplaçant de LM Studio ? Est-ce qu’il prend aussi en charge MLX ou Metal sur Mac ? Si l’optimisation AMD est au cœur du projet, je voudrais savoir s’il est désavantagé sur d’autres GPU

    • D’après la feuille de route sur GitHub, la bêta macOS est terminée et le support MLX est en cours de développement
    • C’est une solution tout-en-un pour installer et maintenir facilement une stack IA locale. Elle fournit à la fois STT, TTS, génération d’images, endpoints LLM, ainsi qu’une WebUI intégrée. Elle prend aussi en charge des endpoints compatibles OpenAI, Ollama et Anthropic
    • Comme LM Studio, il abstrait plusieurs runtimes, mais via le runtime FastFlowML d’AMD, il peut exploiter le NPU des CPU Ryzen AI sous Linux
    • LM Studio délègue en pratique l’exécution réelle des LLM à d’autres logiciels, et si ces logiciels ne prennent pas en charge le NPU, les performances chutent. Lemonade semble jouer ce rôle de backend
  • Je trouve surprenant que le guide d’installation du serveur Linux ne propose pas d’option Docker/Podman. Il n’y a que Snap/PPA et RPM. Peut-être que cela signifie que les utilisateurs de conteneurs doivent compiler eux-mêmes

  • Je me demande si quelqu’un l’a comparé à Ollama. J’utilise bien Ollama avec une 9070 XT sur ROCm 7.4

    • Lemonade prend en charge plusieurs API et des builds dédiés aux GPU et NPU AMD. Il est maintenu directement par AMD. En interne, les deux s’appuient sur llama.cpp, mais Lemonade a des builds optimisés selon le GPU
    • Sur un MacBook M1 Max (64 Go de RAM), testé avec le modèle qwen3.59b, Ollama a mis 1 min 44 s et Lemonade 1 min 14 s, donc Lemonade est plus rapide
    • Je serais aussi curieux d’une comparaison avec vLLM
    • J’utilise Ollama actuellement, mais je me demande quelle est la différence de performances avec Lemonade
    • Je voudrais aussi savoir si c’est meilleur que Vulkan