Lemonade by AMD : un serveur LLM local open source rapide exploitant GPU et NPU

(lemonade-server.ai)

11 points par GN⁺ 27 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Serveur d’IA local pris en charge par AMD, une plateforme open source qui traite rapidement texte, image et audio en exploitant GPU et NPU
Met l’accent sur l’exécution en local et la protection de la vie privée, et reste compatible avec le standard de l’API OpenAI, ce qui permet une intégration immédiate avec diverses applications
Offre un environnement d’IA local pratique grâce à un backend léger en C++, une configuration matérielle automatique et l’exécution simultanée de plusieurs modèles
Prend en charge Chat, Vision, Image Generation, Transcription, Speech Generation via une API unifiée
Fournit le même environnement sur Windows, Linux, macOS (bêta), avec une GUI intégrée qui facilite le téléchargement et le basculement entre modèles

Caractéristiques principales

Conception open source et centrée sur le local
- Développé autour de la philosophie selon laquelle l’IA locale doit être libre, ouverte, rapide et privée
- Construit de manière proactive par la communauté de l’IA locale, et exécutable sur n’importe quel PC
- Met l’accent sur la protection de la vie privée et un environnement d’exécution indépendant
Installation rapide et architecture légère
- One Minute Install configure automatiquement toute la stack
- Le backend natif en C++ est un service léger d’environ 2 Mo
- La fonction de configuration matérielle automatique configure automatiquement les environnements GPU et NPU
Large compatibilité
- La compatibilité avec l’API OpenAI permet une intégration immédiate avec des centaines d’applications
- Prend en charge divers moteurs d’inférence comme llama.cpp, Ryzen AI SW et FastFlowLM
- L’exécution simultanée de plusieurs modèles permet de faire tourner plusieurs modèles en parallèle
API unifiée
- Un seul service local prend en charge Chat, Vision, Image Generation, Transcription et Speech Generation
- Fourni sous forme d’API REST standard ; par exemple, le point de terminaison POST /api/v1/chat/completions permet d’appeler un modèle conversationnel
- Dans l’exemple de requête, "model": "Qwen3-0.6B-GGUF" est utilisé pour interroger la population de Paris
Interface utilisateur et écosystème
- Une application GUI intégrée permet de télécharger, tester et changer de modèle rapidement
- Basé sur le standard de l’API OpenAI, avec une compatibilité immédiate avec diverses applications
- Amélioration continue et extension des fonctionnalités grâce à la participation de la communauté

Spécifications techniques et exemples d’usage

Matériel et performances
- Dans un environnement avec 128 Go de RAM unifiée, il est possible d’exécuter de grands modèles comme gpt-oss-120b et Qwen-Coder-Next
- L’option --no-mmap permet de réduire le temps de chargement et d’augmenter la taille du contexte (au-delà de 64)
Fonctions image et audio
- Exemple de génération d’image : « une carafe de limonade dans un style pictural Renaissance »
- Exemple audio : “Hello, I am your AI assistant. What can I do for you today?”

Dernières versions

Lemonade continue d’être amélioré en permanence, avec de nouvelles fonctionnalités et des gains de performance fournis via le flux de releases
Les nouvelles fonctionnalités et les points forts peuvent être consultés sur le site officiel

Lemonade by AMD : un serveur LLM local open source rapide exploitant GPU et NPU

Caractéristiques principales

Conception open source et centrée sur le local

Installation rapide et architecture légère

Large compatibilité

API unifiée

Interface utilisateur et écosystème

Spécifications techniques et exemples d’usage

Matériel et performances

Fonctions image et audio

Dernières versions

À lire aussi

Aucun commentaire pour le moment.