Construire un sLLM spécialisé pour le domaine gouvernemental — chatbot RAG affiné à partir de Gemma-3-1B avec les données du ministère du Territoire, des Infrastructures et des Transports

(riss.kr)

14 points par chohi 1 일 전 | 3 commentaires | Partager sur WhatsApp

Construire un sLLM spécialisé pour le domaine gouvernemental — molit-gemma + RAG

Voici un cas de mise en place d’un chatbot spécialisé par domaine, déployé on-premise, dans un environnement sécurisé d’un organisme public où il est difficile d’utiliser des LLM externes comme ChatGPT ou Claude.

TL;DR

Fine-tuning de Google Gemma-3-1B sur des documents de politique publique du ministère du Territoire, des Infrastructures et des Transports → molit-gemma
Réduction des hallucinations grâce à un RAG basé sur OpenSearch
BLEU 0.6258, LLM-as-a-Judge 4.34/5.0
Déploiement entièrement on-premise (0 API externe)

Pourquoi un sLLM ?

Les réponses aux demandes administratives du gouvernement présentent un risque de fuite de données en cas d’appel à une API externe
Les modèles de classe 70B impliquent une lourde infrastructure GPU → compensation avec un modèle 1B + RAG
Le fine-tuning spécialisé par domaine offre une meilleure précision qu’un LLM généraliste

Architecture

Requête utilisateur → recherche OpenSearch → documents de politique publique Top-K →
génération de réponse par molit-gemma → citation des sources

Enseignements

Présentation d’une base de référence empirique pour la combinaison sLLM + RAG dans le secteur public
Même un modèle 1B peut atteindre un niveau pratique si le domaine est restreint
Réduction des hallucinations + amélioration de l’explicabilité

Liens

Article (RISS): https://www.riss.kr/link?id=T17378943
Modèle (Hugging Face): https://huggingface.co/chohi/gemma-molit-finetuned/blob/main/README.md
Code (GitHub): https://github.com/chohi22/Industrial-AI/…

3 commentaires

danke1 9 시간 전

Je me suis bien amusé en lisant, merci.

hosungseo2026 1 일 전

Magnifique.

jhk0530 1 일 전

Félicitations pour votre mémoire de fin d’études !