20 points par computerphilosopher 2025-03-24 | 4 commentaires | Partager sur WhatsApp

Contexte du développement d’un GPT bouddhiste

  • Je voulais utiliser GPT pour étudier le bouddhisme, mais les performances de base étaient en deçà des attentes.
  • La qualité des réponses s’est améliorée après l’apprentissage à partir de documents PDF.
  • Après qu’on m’a suggéré d’entraîner le modèle sur les écritures Jataka, j’ai lancé le projet.

Les limites de l’apprentissage sur PDF

  • Après l’apprentissage sur les PDF des Jataka, les hallucinations étaient graves.
  • Les structures non linéaires comme les mises en page sur plusieurs colonnes, les tableaux et les images gênaient GPT.

Méthodes essayées (toutes ont échoué)

  • utilisation du format epub
  • ajustement des instructions
  • conversion en Markdown + crawling
  • ajout d’un index csv

La piste de solution

  • Le problème venait du conflit entre la structure fondée sur une numérotation des Jataka et la nature générative de GPT.
  • GPT n’exploitait pas correctement le csv.
  • Après qu’on m’a proposé d’utiliser un index JSON et que je l’ai appliqué, la précision a fortement augmenté.

Méthode réellement appliquée

  • conversion epub → Markdown (pandoc)
  • correction des headings, suppression des textes inutiles
  • selon les cas, structuration manuelle du Markdown

Pourquoi le service a été arrêté

  • des hallucinations sont apparues sur des questions liées à l’Abhidhamma
  • le traducteur Sujato Bhante s’oppose à l’entraînement de l’IA
  • risque de violation de la licence de SuttaCentral

Conclusion

  • Le RAG n’est pas simple.
  • Il faut impérativement vérifier la licence des documents utilisés pour l’entraînement de l’IA.

4 commentaires

 
pkj3186 2025-03-24

Cela pourrait aussi être utile pour l'apprentissage d'autres disciplines qui utilisent une notation similaire à celle des textes classiques. Des ouvrages de Platon, par exemple...

 
bus710 2025-03-24

Ça alors… vous êtes sûr qu’il ne nous a pas laissés en plan pour atteindre le nirvana tout seul ?

 
1206good 2025-03-24

Je pensais aussi que le Doc As Prompt fonctionnerait bien avec Mistral OCR, mais j’ai rencontré un problème similaire. Ça me donne une piste.

 
halfenif 2025-03-24

Ça me fait penser à : « Demandez tranquillement à un LLM les conseils amoureux qu’il est difficile de demander à ses amis. »