Ingénierie des données pour les grands modèles : architecture, algorithmes et projets

(github.com/datascale-ai)

15 points par GN⁺ 2026-02-16 | 1 commentaires | Partager sur WhatsApp

À l’ère des grands modèles, la qualité des données détermine la limite supérieure des performances du modèle
Un guide open source qui fournit des connaissances structurées en ingénierie des données à cette fin
Couvre l’ensemble du processus, notamment le nettoyage des données de préentraînement, l’alignement multimodal, les pipelines de données RAG et la génération de données synthétiques
Composé de 5 parties et 13 chapitres. En plus, 5 projets capstone pratiques, du code exécutable et des conceptions d’architecture sont inclus pour soutenir l’apprentissage en situation réelle
Traite des données texte, image et vidéo à l’aide d’une stack technologique moderne comme Ray, Spark, CLIP et DVC
Peut servir de référence concrète pour les concepteurs de pipelines de données IA, notamment les chercheurs en LLM, les data engineers et les spécialistes MLOps

Présentation

À l’ère des grands modèles, la qualité des données détermine les limites des performances du modèle
- Créé pour combler le manque de ressources structurées sur l’ingénierie des données pour les LLM
Le livre couvre l’ensemble de la stack technique, du nettoyage des données de préentraînement à l’alignement multimodal, au RAG et à la génération de données synthétiques
- Extraction de corpus de haute qualité à partir de grandes masses de données bruitées comme Common Crawl
- Collecte, nettoyage et alignement de données image-texte, vidéo et audio
- Génération automatique de données SFT, RLHF et CoT
- Construction de pipelines RAG, incluant l’analyse de documents d’entreprise et leur segmentation en unités sémantiques
5 projets capstone de bout en bout pour un apprentissage centré sur la pratique
Consultation en ligne : https://datascale-ai.github.io/data_engineering_book/en/

Structure du livre

La structure globale correspond à un pipeline complet d’ingénierie des données, des données brutes jusqu’à l’application
Composé de 6 parties, 13 chapitres et 5 projets
- Part 1: Infrastructure et concepts fondamentaux
- Part 2: Ingénierie des données texte de préentraînement
- Part 3: Ingénierie des données multimodales
- Part 4: Ingénierie des données d’alignement et synthétiques
- Part 5: Ingénierie des données au niveau applicatif
- Part 6: Projets capstone (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

Principales caractéristiques

Théorie complète

La philosophie Data-Centric AI irrigue l’ensemble de l’ouvrage
Couvre l’ensemble du cycle de vie des données des LLM, du préentraînement au fine-tuning, puis au RLHF et au RAG
Inclut des sujets avancés comme les lois de passage à l’échelle, l’évaluation de la qualité des données et l’alignement multimodal

Stack technologique moderne

Calcul distribué : Ray Data, Spark
Stockage de données : Parquet, WebDataset, Vector Databases
Traitement de texte : Trafilatura, KenLM, MinHash LSH
Traitement multimodal : CLIP, ColPali, img2dataset
Versioning des données : DVC, LakeFS

Projets capstone riches et concrets

Mini-C4: construction d’un corpus texte de haute qualité avec Trafilatura + Ray + MinHash
Legal Expert SFT: jeu de données d’instructions métier basé sur Self-Instruct + CoT
LLaVA Multimodal: génération d’un jeu de données d’instructions visuelles avec alignement Bbox et interleaving multi-images
Math Textbook: construction d’un jeu de données de raisonnement avec Evol-Instruct + validation en sandbox
Financial Report RAG: implémentation d’un système de question-réponse multimodal avec ColPali + Qwen-VL

Développement local

Environnement requis : Python 3.8 ou supérieur, MkDocs Material, mkdocs-static-i18n
Installation et prévisualisation
- Cloner le dépôt avec git clone, puis installer les dépendances
- Exécuter mkdocs serve pour une prévisualisation locale (prise en charge du basculement chinois/anglais)
Build du site statique : exécuter mkdocs build pour générer le résultat dans le répertoire site/

Structure du projet

Le dossier docs/ contient les contenus en chinois (zh/) et en anglais (en/)
Répertoires de ressources tels que images/, stylesheets/, javascripts/, etc.
La configuration CI/CD est incluse dans .github/workflows/
La configuration du site est gérée via mkdocs.yml
La licence est la MIT License

Public visé

Ingénieurs R&D LLM, data engineers, ingénieurs MLOps, PM IA techniques, chercheurs sur les pipelines de données LLM

Licence

MIT License

Consultation en ligne : https://datascale-ai.github.io/data_engineering_book/en/

1 commentaires

GN⁺ 2026-02-16

Commentaires sur Hacker News

J’apprécie vraiment beaucoup ce livre. La qualité de la traduction est très élevée
Je débute complètement dans l’entraînement de LLM, mais j’expérimente une nouvelle architecture pour la génération de code Python sur Apple Silicon
Cela dit, je trouve frustrant que les outils de données soient davantage centrés sur du texte général ou des images que sur le code
SGlang ne fonctionne pas sur macOS, donc je ne peux pas faire de génération de données synthétiques avec des sorties contraintes par EBNF
Je télécharge directement des corpus de code Python pour gérer moi-même les problèmes APFS, le sharding, ainsi que la classification, le nettoyage et le mélange personnalisés, et je suis surpris qu’il n’existe pas de jeu de données pré-étiqueté pour le code
S’il s’agit d’un livre sur l’ingénierie des données pour les LLM, il devrait aussi mentionner des catégories émergentes comme les formats de stockage pour l’ensemble du cycle de vie du ML
Par exemple, Lance est un stockage en colonnes optimisé à la fois pour les tâches analytiques et les workloads vectoriels, avec prise en charge du versioning et de l’accès aléatoire
C’est très important pour l’échantillonnage, le filtrage efficace et le traitement de données multimodales (par ex. la vidéo)
Parmi les exemples similaires, on peut citer vortex et nimble de Meta
Je pense que le titre ‘Data Engineering for LLMs’ serait plus approprié
- Bonne remarque. Vu le contenu, ‘Data Engineering for LLMs’ est beaucoup plus précis, donc je vais le transmettre immédiatement au responsable du projet
C’est peut-être un problème de traduction, mais l’explication initiale de la “Modern Data Stack” ne m’a pas inspiré confiance
La partie 1_2_data_infra.md m’a semblé assez vague, mais
les sections sur le nettoyage des données et les pipelines RAG étaient bien plus claires
- Merci pour ce retour honnête
La version anglaise se trouve dans README_en.md
- Merci ! J’ai remplacé le lien en haut par celui-ci. L’URL soumise à l’origine était data_engineering_book
  Le post avait été bloqué par le filtre anti-spam, mais l’auteur m’en a informé par e-mail, donc je l’ai invité à partager le contexte en commentaire. C’est maintenant reflété en haut
- Merci d’avoir partagé le lien direct
Très intéressant, je l’ai mis en favoris. En revanche, je me demande si le README a été rédigé avec ChatGPT
- Oui. Nous sommes une équipe chinoise et nous avons utilisé GPT pour la traduction en anglais. Merci pour le retour disant que cela donnait une impression de « fausse chaleur ». Nous allons à l’avenir retravailler cela avec un ton plus neutre et plus concis
- J’ai eu la même impression. Il y a beaucoup de tableaux récapitulatifs et une tournure artificielle, ce qui donne fortement l’impression d’un texte écrit par un LLM. Même si ce n’était pas GPT, cela nécessiterait quand même une réécriture en profondeur
La formule “Data is the new oil, but only if you know how to refine it.” m’a marqué
Le pétrole n’est pas utile non plus s’il n’est pas raffiné, donc une formulation comme « les données sont le nouveau pétrole, et elles n’ont de valeur qu’une fois raffinées » semblerait plus naturelle
La section ‘Vector DB vs Keyword Search’ était intéressante. Je me demande où vous placez la ligne de démarcation dans vos expérimentations de pipelines RAG
D’après notre expérience, la recherche par mots-clés comme BM25 est plus forte sur les noms d’entités et les identifiants, tandis que la recherche vectorielle est meilleure pour les requêtes conceptuelles. Je me demande si le livre traite aussi de la recherche hybride ou du reranking
- Excellente question. En production réelle, une approche hybride BM25+vecteur a été efficace dans la plupart des cas. Dans une proportion d’environ 70/30, les mots-clés sont avantagés pour les correspondances exactes
  L’essentiel, c’est le reranking. Il ne suffit pas de fusionner les résultats ; il faut réattribuer les scores avec un cross-encoder (par ex. Cohere ou un modèle custom)
  La recherche purement sémantique devient surtout avantageuse lorsque la requête porte principalement sur des concepts abstraits
- Merci pour ces éclairages. Nous prévoyons de couvrir ce type de schéma dans une prochaine mise à jour. Nous sommes actuellement en congés du Nouvel An lunaire, donc cela pourrait prendre un peu de temps
Les illustrations de chaque chapitre sont en anglais (à l’exception des images dans README_en.md)
- Merci de l’avoir signalé ! J’avais remarqué cette différence et j’ai immédiatement corrigé les diagrammes dans README_en.md. Cela devrait maintenant s’afficher correctement
Parquet seul ne suffit pas pour l’ingénierie des données moderne. Delta et Iceberg devraient aussi être inclus
- Merci pour ce retour ! Je l’ai transmis au responsable de cette section. Nous sommes actuellement en vacances du Nouvel An lunaire, donc la mise à jour pourrait être un peu retardée. Bonne année !

Ingénierie des données pour les grands modèles : architecture, algorithmes et projets

Présentation

Structure du livre

Principales caractéristiques

Théorie complète

Stack technologique moderne

Projets capstone riches et concrets

Développement local

Structure du projet

Public visé

Licence

À lire aussi

1 commentaires

Commentaires sur Hacker News