J’ai créé une démo RAG qui recherche 7 types de textes juridiques au même endroit — MiniLex
(minilex.wellsa.ai)Quand on cherche des textes juridiques, c’est frustrant de devoir déjà connaître des références comme « article 14 de la loi sur la répression des violences sexuelles » pour trouver la bonne disposition. J’ai donc créé une démo RAG qui renvoie les articles pertinents quand un citoyen pose sa question en langage courant.
Les données proviennent de l’OpenAPI public du ministère coréen de la Législation, sont organisées en Markdown et mises à jour chaque jour via cron.
• Lois (law-kr) : 5,589
• Règles administratives (regulate-kr) : 10,765
• Jurisprudence (precedent-kr) : 171,014
• Interprétations du droit (interpretation-kr) : 8,728
• Décisions de la Cour constitutionnelle (constitution-kr) : 38,092
• Règlements locaux (localrule-kr) : 159,910
• Traités (treaty-kr) : 6,907
Soit plus de 397K documents Markdown au total.
Plus de 1.36M articles indexés dans la base de production.
• Démo : https://minilex.wellsa.ai
• Données/code (MIT) : https://github.com/wellsa-ai
• Miroir HF : https://huggingface.co/wellsa-ai
J’ai vérifié qu’il renvoie bien les articles sources pour environ 5 scénarios citoyens (deepfake / salaires impayés / licenciement abusif / fuite de données personnelles / stalking), mais la généralisation est encore loin d’être au point.
La dépendance aux mots-clés + expansion par synonymes est encore forte, donc la prochaine étape est d’améliorer la généralisation du ranking.
La stack est assez classique : Next.js + FastAPI + Celery + PostgreSQL + pgvector, et j’utilise nomic-embed-text-v2-moe (768d) pour les embeddings.
Sur mon benchmark interne d’échantillons de sécurité, j’obtiens environ R@5 0.86 / MRR 0.753.
Ce n’est pas un outil de remplacement du conseil juridique, mais une aide pour explorer les articles sources.
Pour toute décision réelle, consultez un professionnel qualifié.
Feedback / PR bienvenus.
Aucun commentaire pour le moment.