- À l’ère des grands modèles, la qualité des données détermine la limite supérieure des performances du modèle
- Un guide open source qui fournit des connaissances structurées en ingénierie des données à cette fin
- Couvre l’ensemble du processus, notamment le nettoyage des données de préentraînement, l’alignement multimodal, les pipelines de données RAG et la génération de données synthétiques
- Composé de 5 parties et 13 chapitres. En plus, 5 projets capstone pratiques, du code exécutable et des conceptions d’architecture sont inclus pour soutenir l’apprentissage en situation réelle
- Traite des données texte, image et vidéo à l’aide d’une stack technologique moderne comme Ray, Spark, CLIP et DVC
- Peut servir de référence concrète pour les concepteurs de pipelines de données IA, notamment les chercheurs en LLM, les data engineers et les spécialistes MLOps
Présentation
- À l’ère des grands modèles, la qualité des données détermine les limites des performances du modèle
- Créé pour combler le manque de ressources structurées sur l’ingénierie des données pour les LLM
- Le livre couvre l’ensemble de la stack technique, du nettoyage des données de préentraînement à l’alignement multimodal, au RAG et à la génération de données synthétiques
- Extraction de corpus de haute qualité à partir de grandes masses de données bruitées comme Common Crawl
- Collecte, nettoyage et alignement de données image-texte, vidéo et audio
- Génération automatique de données SFT, RLHF et CoT
- Construction de pipelines RAG, incluant l’analyse de documents d’entreprise et leur segmentation en unités sémantiques
- 5 projets capstone de bout en bout pour un apprentissage centré sur la pratique
- Consultation en ligne : https://datascale-ai.github.io/data_engineering_book/en/
Structure du livre
- La structure globale correspond à un pipeline complet d’ingénierie des données, des données brutes jusqu’à l’application
- Composé de 6 parties, 13 chapitres et 5 projets
- Part 1: Infrastructure et concepts fondamentaux
- Part 2: Ingénierie des données texte de préentraînement
- Part 3: Ingénierie des données multimodales
- Part 4: Ingénierie des données d’alignement et synthétiques
- Part 5: Ingénierie des données au niveau applicatif
- Part 6: Projets capstone (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)
Principales caractéristiques
Théorie complète
- La philosophie Data-Centric AI irrigue l’ensemble de l’ouvrage
- Couvre l’ensemble du cycle de vie des données des LLM, du préentraînement au fine-tuning, puis au RLHF et au RAG
- Inclut des sujets avancés comme les lois de passage à l’échelle, l’évaluation de la qualité des données et l’alignement multimodal
Stack technologique moderne
- Calcul distribué : Ray Data, Spark
- Stockage de données : Parquet, WebDataset, Vector Databases
- Traitement de texte : Trafilatura, KenLM, MinHash LSH
- Traitement multimodal : CLIP, ColPali, img2dataset
- Versioning des données : DVC, LakeFS
Projets capstone riches et concrets
- Mini-C4: construction d’un corpus texte de haute qualité avec Trafilatura + Ray + MinHash
- Legal Expert SFT: jeu de données d’instructions métier basé sur Self-Instruct + CoT
- LLaVA Multimodal: génération d’un jeu de données d’instructions visuelles avec alignement Bbox et interleaving multi-images
- Math Textbook: construction d’un jeu de données de raisonnement avec Evol-Instruct + validation en sandbox
- Financial Report RAG: implémentation d’un système de question-réponse multimodal avec ColPali + Qwen-VL
Développement local
- Environnement requis : Python 3.8 ou supérieur, MkDocs Material, mkdocs-static-i18n
- Installation et prévisualisation
- Cloner le dépôt avec
git clone, puis installer les dépendances
- Exécuter
mkdocs serve pour une prévisualisation locale (prise en charge du basculement chinois/anglais)
- Build du site statique : exécuter
mkdocs build pour générer le résultat dans le répertoire site/
Structure du projet
- Le dossier
docs/ contient les contenus en chinois (zh/) et en anglais (en/)
- Répertoires de ressources tels que
images/, stylesheets/, javascripts/, etc.
- La configuration CI/CD est incluse dans
.github/workflows/
- La configuration du site est gérée via
mkdocs.yml
- La licence est la MIT License
Public visé
- Ingénieurs R&D LLM, data engineers, ingénieurs MLOps, PM IA techniques, chercheurs sur les pipelines de données LLM
Licence
1 commentaires
Commentaires sur Hacker News
J’apprécie vraiment beaucoup ce livre. La qualité de la traduction est très élevée
Je débute complètement dans l’entraînement de LLM, mais j’expérimente une nouvelle architecture pour la génération de code Python sur Apple Silicon
Cela dit, je trouve frustrant que les outils de données soient davantage centrés sur du texte général ou des images que sur le code
SGlang ne fonctionne pas sur macOS, donc je ne peux pas faire de génération de données synthétiques avec des sorties contraintes par EBNF
Je télécharge directement des corpus de code Python pour gérer moi-même les problèmes APFS, le sharding, ainsi que la classification, le nettoyage et le mélange personnalisés, et je suis surpris qu’il n’existe pas de jeu de données pré-étiqueté pour le code
S’il s’agit d’un livre sur l’ingénierie des données pour les LLM, il devrait aussi mentionner des catégories émergentes comme les formats de stockage pour l’ensemble du cycle de vie du ML
Par exemple, Lance est un stockage en colonnes optimisé à la fois pour les tâches analytiques et les workloads vectoriels, avec prise en charge du versioning et de l’accès aléatoire
C’est très important pour l’échantillonnage, le filtrage efficace et le traitement de données multimodales (par ex. la vidéo)
Parmi les exemples similaires, on peut citer vortex et nimble de Meta
Je pense que le titre ‘Data Engineering for LLMs’ serait plus approprié
C’est peut-être un problème de traduction, mais l’explication initiale de la “Modern Data Stack” ne m’a pas inspiré confiance
La partie 1_2_data_infra.md m’a semblé assez vague, mais
les sections sur le nettoyage des données et les pipelines RAG étaient bien plus claires
La version anglaise se trouve dans README_en.md
Le post avait été bloqué par le filtre anti-spam, mais l’auteur m’en a informé par e-mail, donc je l’ai invité à partager le contexte en commentaire. C’est maintenant reflété en haut
Très intéressant, je l’ai mis en favoris. En revanche, je me demande si le README a été rédigé avec ChatGPT
La formule “Data is the new oil, but only if you know how to refine it.” m’a marqué
Le pétrole n’est pas utile non plus s’il n’est pas raffiné, donc une formulation comme « les données sont le nouveau pétrole, et elles n’ont de valeur qu’une fois raffinées » semblerait plus naturelle
La section ‘Vector DB vs Keyword Search’ était intéressante. Je me demande où vous placez la ligne de démarcation dans vos expérimentations de pipelines RAG
D’après notre expérience, la recherche par mots-clés comme BM25 est plus forte sur les noms d’entités et les identifiants, tandis que la recherche vectorielle est meilleure pour les requêtes conceptuelles. Je me demande si le livre traite aussi de la recherche hybride ou du reranking
L’essentiel, c’est le reranking. Il ne suffit pas de fusionner les résultats ; il faut réattribuer les scores avec un cross-encoder (par ex. Cohere ou un modèle custom)
La recherche purement sémantique devient surtout avantageuse lorsque la requête porte principalement sur des concepts abstraits
Les illustrations de chaque chapitre sont en anglais (à l’exception des images dans README_en.md)
Parquet seul ne suffit pas pour l’ingénierie des données moderne. Delta et Iceberg devraient aussi être inclus