- À l’ère des grands modèles, la qualité des données détermine la limite supérieure des performances du modèle
- Un guide open source qui fournit des connaissances structurées en ingénierie des données à cette fin
- Couvre l’ensemble du processus, notamment le nettoyage des données de préentraînement, l’alignement multimodal, les pipelines de données RAG et la génération de données synthétiques
- Composé de 5 parties et 13 chapitres. En plus, 5 projets capstone pratiques, du code exécutable et des conceptions d’architecture sont inclus pour soutenir l’apprentissage en situation réelle
- Traite des données texte, image et vidéo à l’aide d’une stack technologique moderne comme Ray, Spark, CLIP et DVC
- Peut servir de référence concrète pour les concepteurs de pipelines de données IA, notamment les chercheurs en LLM, les data engineers et les spécialistes MLOps
Présentation
- À l’ère des grands modèles, la qualité des données détermine les limites des performances du modèle
- Créé pour combler le manque de ressources structurées sur l’ingénierie des données pour les LLM
- Le livre couvre l’ensemble de la stack technique, du nettoyage des données de préentraînement à l’alignement multimodal, au RAG et à la génération de données synthétiques
- Extraction de corpus de haute qualité à partir de grandes masses de données bruitées comme Common Crawl
- Collecte, nettoyage et alignement de données image-texte, vidéo et audio
- Génération automatique de données SFT, RLHF et CoT
- Construction de pipelines RAG, incluant l’analyse de documents d’entreprise et leur segmentation en unités sémantiques
- 5 projets capstone de bout en bout pour un apprentissage centré sur la pratique
- Consultation en ligne : https://datascale-ai.github.io/data_engineering_book/en/
Structure du livre
- La structure globale correspond à un pipeline complet d’ingénierie des données, des données brutes jusqu’à l’application
- Composé de 6 parties, 13 chapitres et 5 projets
- Part 1: Infrastructure et concepts fondamentaux
- Part 2: Ingénierie des données texte de préentraînement
- Part 3: Ingénierie des données multimodales
- Part 4: Ingénierie des données d’alignement et synthétiques
- Part 5: Ingénierie des données au niveau applicatif
- Part 6: Projets capstone (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)
Principales caractéristiques
Théorie complète
- La philosophie Data-Centric AI irrigue l’ensemble de l’ouvrage
- Couvre l’ensemble du cycle de vie des données des LLM, du préentraînement au fine-tuning, puis au RLHF et au RAG
- Inclut des sujets avancés comme les lois de passage à l’échelle, l’évaluation de la qualité des données et l’alignement multimodal
Stack technologique moderne
- Calcul distribué : Ray Data, Spark
- Stockage de données : Parquet, WebDataset, Vector Databases
- Traitement de texte : Trafilatura, KenLM, MinHash LSH
- Traitement multimodal : CLIP, ColPali, img2dataset
- Versioning des données : DVC, LakeFS
Projets capstone riches et concrets
- Mini-C4: construction d’un corpus texte de haute qualité avec Trafilatura + Ray + MinHash
- Legal Expert SFT: jeu de données d’instructions métier basé sur Self-Instruct + CoT
- LLaVA Multimodal: génération d’un jeu de données d’instructions visuelles avec alignement Bbox et interleaving multi-images
- Math Textbook: construction d’un jeu de données de raisonnement avec Evol-Instruct + validation en sandbox
- Financial Report RAG: implémentation d’un système de question-réponse multimodal avec ColPali + Qwen-VL
Développement local
- Environnement requis : Python 3.8 ou supérieur, MkDocs Material, mkdocs-static-i18n
- Installation et prévisualisation
- Cloner le dépôt avec
git clone, puis installer les dépendances
- Exécuter
mkdocs serve pour une prévisualisation locale (prise en charge du basculement chinois/anglais)
- Build du site statique : exécuter
mkdocs build pour générer le résultat dans le répertoire site/
Structure du projet
- Le dossier
docs/ contient les contenus en chinois (zh/) et en anglais (en/)
- Répertoires de ressources tels que
images/, stylesheets/, javascripts/, etc.
- La configuration CI/CD est incluse dans
.github/workflows/
- La configuration du site est gérée via
mkdocs.yml
- La licence est la MIT License
Public visé
- Ingénieurs R&D LLM, data engineers, ingénieurs MLOps, PM IA techniques, chercheurs sur les pipelines de données LLM
Licence
Aucun commentaire pour le moment.