2 points par maantano 6 일 전 | 2 commentaires | Partager sur WhatsApp

URL : https://lemini-brown.vercel.app/

Je partage Lemini, un chatbot RAG qui permet d’interroger en langage naturel le droit et la jurisprudence coréens. Après avoir vu passer récemment un article sur un service proche dans son intention, nous publions le nôtre parce que nous abordons le même problème avec deux modes différents et aimerions avoir des retours techniques.

Pourquoi deux modes ?

Les questions juridiques se divisent en deux grandes catégories.

  1. « Ma situation est la suivante, que dois-je faire ? » — l’utilisateur n’a pas forcément la capacité d’exposer clairement les faits. Avec un RAG classique, on n’obtient que des généralités.
  2. « Peux-tu examiner ce contrat / ces conditions générales ? » — le document existe déjà, mais avec un simple prompt du type « examine-le », on n’obtient qu’une checklist standard.

Ces deux cas ne se résolvent pas avec le même RAG. Lemini a été conçu en séparant les modes en deux.


Mode 1 — Ouroboros (convergence interactive des faits)

Question → [Les faits sont-ils suffisants ?] ──insuffisants── questions de suivi à choix multiple ─┐
│ suffisants │
▼ ←─ réponse de l’utilisateur ┘
RAG (textes de loi + jurisprudence + règles autonomes)

Analyse structurée
· faits favorables / points de vigilance
· plan d’action
· alerte sur les délais (prescription)
· jurisprudence liée

Boucle de vérification des citations — suppression des citations absentes des résultats de recherche

En une phrase : avant de répondre, le modèle se demande lui-même si les faits sont suffisants.

S’ils sont insuffisants, il pose des questions de suivi sous forme de cartes à choix multiple ; s’ils sont suffisants, il passe à RAG → analyse structurée. L’utilisateur n’a pas besoin de concevoir lui-même les questions de suivi.


Mode 2 — analyse experte (chaîne en 6 étapes pour la revue de documents)

Entrée du document

① Scan global — nature du document, résumé des sections
② Mapping du cadre institutionnel externe — déclaration du dispositif sur lequel s’appuie ce document
③ RAG par axe — recherche des textes et jurisprudences pour chaque axe institutionnel
② Mapping du cadre institutionnel externe — déclaration du dispositif sur lequel s’appuie ce document
③ RAG par axe — recherche des textes et jurisprudences pour chaque axe institutionnel
④ Revue clause par clause — observations / gaps / external
⑤ Chaînes parallèles (3 en simultané)
├ cohérence objectif-moyens
├ revue sous l’angle institutionnel
└ scénarios de risque
⑥ verdict de type décisionnel — uniquement pour les questions appelant un jugement

En une phrase : au lieu d’un simple prompt « examine ce document », nous commençons par déclarer le cadre institutionnel externe au document.

Cette étape ② sort mal avec un prompt unique, c’est pourquoi nous avons séparé la chaîne.


Fondations communes aux deux modes

  • Boucle de vérification des citations — les citations produites par le LLM sont comparées aux résultats de recherche, et celles qui n’existent pas sont retirées de la réponse. Objectif : éviter les faux articles plausibles.
  • Même pool pour trois types de données — textes de loi + jurisprudence + règles autonomes (conditions générales standard de la Fair Trade Commission, règlements d’associations, lignes directrices de la KISA et de la Commission de protection des informations personnelles) chargés dans le même espace vectoriel.
    0 branchement métier dans le code, distinction uniquement via document_type.
  • Pipeline de collecte maison — les textes sont mis à jour automatiquement chaque semaine via l’API DRF ; la jurisprudence passe par l’API de mutualisation du système national d’information juridique + cache à la demande.
  • Les prompts ont été conçus avec la généricité comme priorité absolue. Ils ne fournissent pas les informations permettant de déduire la réponse, mais sont pensés pour produire une réponse adaptée à la question.

Stack

FastAPI / Cloud Run · Next.js · Gemini (JSON structuré + multi-chaînes) · SQLite + matrice d’embeddings maison (3 axes : vectoriel · lexical · exact)

Confidentialité

Pas d’inscription ni de connexion, aucune conversation stockée dans la base serveur (localStorage du navigateur), stateless, IP utilisée uniquement en mémoire pour le rate limiting.

Limites

Ce n’est pas un service de conseil juridique, mais un outil de recherche et d’analyse d’information. Il existe des zones non couvertes dans les données de formulaires / modèles et dans la couverture jurisprudentielle. La capacité de raisonnement du modèle dépend d’un LLM externe, et notre différenciation visée n’est pas la « réponse plausible », mais la « réponse structurée avec vérification des fondements ».

Points sur lesquels nous aimerions des retours

  • Mode 1 — cas où les questions de suivi d’Ouroboros sont à côté de la plaque ou excessives
  • Mode 2 — angles manquants dans la chaîne en 6 étapes de revue de documents
  • citations erronées non détectées par la boucle de vérification
  • points de vue absents par rapport à d’autres services du même domaine

N’hésitez pas à l’essayer et à nous faire des retours francs.

2 commentaires

 
dydwls140 6 일 전

Résultat de la vérification du document
Échec de la vérification
Une erreur s’est produite lors de la vérification du document. Une erreur survient aussi pendant l’utilisation du chatbot, et lorsque je recherche le nom d’une loi, le premier résultat s’affiche à 50 %, mais les autres semblent afficher des scores absurdes comme 4565 %.

 
maantano 5 일 전

Merci !! snif snif Je vais vérifier ça !!