Ask HN : en décembre 2023, comment entraîner un LLM/ChatGPT personnalisé avec mes documents ?

(news.ycombinator.com)

4 points par GN⁺ 2023-12-26 | 1 commentaires | Partager sur WhatsApp

Un fil de discussion connexe datant d’il y a 5 mois existe, mais il pourrait déjà contenir des informations obsolètes ; l’auteur cherche donc à nouveau l’approche à adopter en décembre 2023
Le cœur de la question est de trouver la meilleure manière de fournir un ensemble de documents personnalisé à un LLM afin d’obtenir des réponses de qualité correcte avec peu d’hallucinations
Le sujet ne se limite pas à l’entraînement d’un modèle maison : il couvre plus largement les méthodes permettant de répondre à des questions à partir de documents, y compris des approches comme le RAG

1 commentaires

GN⁺ 2023-12-26

Commentaires sur Hacker News

Il n’y a pas réellement d’entraînement sur les documents ; beaucoup de startups utilisent ce terme, mais en pratique elles utilisent du RAG (Retrieval-Augmented Generation).
- Llamaindex est considéré comme la meilleure option.
- La plupart des startups qui prétendent entraîner sur des documents utilisent en réalité du RAG.
- Il est recommandé de chercher un script qui génère automatiquement des paires de questions-réponses avec qLoRA.
- Les cas de réussite avec une base de connaissances issue de documents personnels sont rares ; cette approche est surtout utilisée pour des compétences comme les mathématiques, le raisonnement ou Python.
- Il a été démontré empiriquement que simplement injecter un ensemble de documents dans un fine-tuning n’est pas efficace.
Il faut envisager des approches différentes selon le volume de documents.
- Le RAG fonctionne bien sur de petits jeux de données, et Llamaindex a fait beaucoup d’ingénierie dans ce domaine.
- La combinaison du fine-tuning et du RAG est efficace pour de grands jeux de données contenant des connaissances faciles à trouver sur Internet.
- Le pré-entraînement continu n’est nécessaire que pour de très grands jeux de données contenant des connaissances propriétaires.
AWS Bedrock est facile à utiliser : on peut téléverser des documents sur S3, les synchroniser avec une base de données vectorielle, puis les exploiter via une API.
- Bedrock est un produit qui fournit différents modèles avec une API commune.
h2ogpt est une implémentation RAG complète, capable de traiter des documents de formats variés et de prendre en charge diverses implémentations d’hébergement de modèles.
Il est possible d’acheter un compte ChatGPT et d’y téléverser ses propres documents afin de créer une IA conversationnelle personnalisée.
Les GPT4 Assistants peuvent désormais gérer le RAG nativement, et PrivateGPT est l’une des options les plus connues pour cela.
Copilot Builder de Microsoft Office permet aux utilisateurs de créer un AI Copilot en quelques secondes en spécifiant une URL de base, des fichiers téléversés, etc.
Cheshire Cat est un framework d’assistant IA qui stocke les documents comme des "souvenirs" afin de pouvoir les retrouver plus tard.
Il existe un guide vidéo expliquant comment fine-tuner Mistral 7B avec QLoRA, tout en précisant que les techniques de RAG peuvent être préférables.

Ask HN : en décembre 2023, comment entraîner un LLM/ChatGPT personnalisé avec mes documents ?

À lire aussi

1 commentaires

Commentaires sur Hacker News