Contexte du développement d’un GPT bouddhiste
- Je voulais utiliser GPT pour étudier le bouddhisme, mais les performances de base étaient en deçà des attentes.
- La qualité des réponses s’est améliorée après l’apprentissage à partir de documents PDF.
- Après qu’on m’a suggéré d’entraîner le modèle sur les écritures Jataka, j’ai lancé le projet.
Les limites de l’apprentissage sur PDF
- Après l’apprentissage sur les PDF des Jataka, les hallucinations étaient graves.
- Les structures non linéaires comme les mises en page sur plusieurs colonnes, les tableaux et les images gênaient GPT.
Méthodes essayées (toutes ont échoué)
- utilisation du format epub
- ajustement des instructions
- conversion en Markdown + crawling
- ajout d’un index csv
La piste de solution
- Le problème venait du conflit entre la structure fondée sur une numérotation des Jataka et la nature générative de GPT.
- GPT n’exploitait pas correctement le csv.
- Après qu’on m’a proposé d’utiliser un index JSON et que je l’ai appliqué, la précision a fortement augmenté.
Méthode réellement appliquée
- conversion epub → Markdown (
pandoc)
- correction des headings, suppression des textes inutiles
- selon les cas, structuration manuelle du Markdown
Pourquoi le service a été arrêté
- des hallucinations sont apparues sur des questions liées à l’Abhidhamma
- le traducteur Sujato Bhante s’oppose à l’entraînement de l’IA
- risque de violation de la licence de SuttaCentral
Conclusion
- Le RAG n’est pas simple.
- Il faut impérativement vérifier la licence des documents utilisés pour l’entraînement de l’IA.
4 commentaires
Cela pourrait aussi être utile pour l'apprentissage d'autres disciplines qui utilisent une notation similaire à celle des textes classiques. Des ouvrages de Platon, par exemple...
Ça alors… vous êtes sûr qu’il ne nous a pas laissés en plan pour atteindre le nirvana tout seul ?
Je pensais aussi que le Doc As Prompt fonctionnerait bien avec Mistral OCR, mais j’ai rencontré un problème similaire. Ça me donne une piste.
Ça me fait penser à : « Demandez tranquillement à un LLM les conseils amoureux qu’il est difficile de demander à ses amis. »