15 points par GN⁺ 2026-02-16 | 1 commentaires | Partager sur WhatsApp
  • À l’ère des grands modèles, la qualité des données détermine la limite supérieure des performances du modèle
  • Un guide open source qui fournit des connaissances structurées en ingénierie des données à cette fin
  • Couvre l’ensemble du processus, notamment le nettoyage des données de préentraînement, l’alignement multimodal, les pipelines de données RAG et la génération de données synthétiques
  • Composé de 5 parties et 13 chapitres. En plus, 5 projets capstone pratiques, du code exécutable et des conceptions d’architecture sont inclus pour soutenir l’apprentissage en situation réelle
  • Traite des données texte, image et vidéo à l’aide d’une stack technologique moderne comme Ray, Spark, CLIP et DVC
  • Peut servir de référence concrète pour les concepteurs de pipelines de données IA, notamment les chercheurs en LLM, les data engineers et les spécialistes MLOps

Présentation

  • À l’ère des grands modèles, la qualité des données détermine les limites des performances du modèle
    • Créé pour combler le manque de ressources structurées sur l’ingénierie des données pour les LLM
  • Le livre couvre l’ensemble de la stack technique, du nettoyage des données de préentraînement à l’alignement multimodal, au RAG et à la génération de données synthétiques
    • Extraction de corpus de haute qualité à partir de grandes masses de données bruitées comme Common Crawl
    • Collecte, nettoyage et alignement de données image-texte, vidéo et audio
    • Génération automatique de données SFT, RLHF et CoT
    • Construction de pipelines RAG, incluant l’analyse de documents d’entreprise et leur segmentation en unités sémantiques
  • 5 projets capstone de bout en bout pour un apprentissage centré sur la pratique
  • Consultation en ligne : https://datascale-ai.github.io/data_engineering_book/en/

Structure du livre

  • La structure globale correspond à un pipeline complet d’ingénierie des données, des données brutes jusqu’à l’application
  • Composé de 6 parties, 13 chapitres et 5 projets
    • Part 1: Infrastructure et concepts fondamentaux
    • Part 2: Ingénierie des données texte de préentraînement
    • Part 3: Ingénierie des données multimodales
    • Part 4: Ingénierie des données d’alignement et synthétiques
    • Part 5: Ingénierie des données au niveau applicatif
    • Part 6: Projets capstone (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

Principales caractéristiques

Théorie complète

  • La philosophie Data-Centric AI irrigue l’ensemble de l’ouvrage
  • Couvre l’ensemble du cycle de vie des données des LLM, du préentraînement au fine-tuning, puis au RLHF et au RAG
  • Inclut des sujets avancés comme les lois de passage à l’échelle, l’évaluation de la qualité des données et l’alignement multimodal

Stack technologique moderne

  • Calcul distribué : Ray Data, Spark
  • Stockage de données : Parquet, WebDataset, Vector Databases
  • Traitement de texte : Trafilatura, KenLM, MinHash LSH
  • Traitement multimodal : CLIP, ColPali, img2dataset
  • Versioning des données : DVC, LakeFS

Projets capstone riches et concrets

  • Mini-C4: construction d’un corpus texte de haute qualité avec Trafilatura + Ray + MinHash
  • Legal Expert SFT: jeu de données d’instructions métier basé sur Self-Instruct + CoT
  • LLaVA Multimodal: génération d’un jeu de données d’instructions visuelles avec alignement Bbox et interleaving multi-images
  • Math Textbook: construction d’un jeu de données de raisonnement avec Evol-Instruct + validation en sandbox
  • Financial Report RAG: implémentation d’un système de question-réponse multimodal avec ColPali + Qwen-VL

Développement local

  • Environnement requis : Python 3.8 ou supérieur, MkDocs Material, mkdocs-static-i18n
  • Installation et prévisualisation
    • Cloner le dépôt avec git clone, puis installer les dépendances
    • Exécuter mkdocs serve pour une prévisualisation locale (prise en charge du basculement chinois/anglais)
  • Build du site statique : exécuter mkdocs build pour générer le résultat dans le répertoire site/

Structure du projet

  • Le dossier docs/ contient les contenus en chinois (zh/) et en anglais (en/)
  • Répertoires de ressources tels que images/, stylesheets/, javascripts/, etc.
  • La configuration CI/CD est incluse dans .github/workflows/
  • La configuration du site est gérée via mkdocs.yml
  • La licence est la MIT License

Public visé

  • Ingénieurs R&D LLM, data engineers, ingénieurs MLOps, PM IA techniques, chercheurs sur les pipelines de données LLM

Licence

  • MIT License

1 commentaires

 
GN⁺ 2026-02-16
Commentaires sur Hacker News
  • J’apprécie vraiment beaucoup ce livre. La qualité de la traduction est très élevée
    Je débute complètement dans l’entraînement de LLM, mais j’expérimente une nouvelle architecture pour la génération de code Python sur Apple Silicon
    Cela dit, je trouve frustrant que les outils de données soient davantage centrés sur du texte général ou des images que sur le code
    SGlang ne fonctionne pas sur macOS, donc je ne peux pas faire de génération de données synthétiques avec des sorties contraintes par EBNF
    Je télécharge directement des corpus de code Python pour gérer moi-même les problèmes APFS, le sharding, ainsi que la classification, le nettoyage et le mélange personnalisés, et je suis surpris qu’il n’existe pas de jeu de données pré-étiqueté pour le code

  • S’il s’agit d’un livre sur l’ingénierie des données pour les LLM, il devrait aussi mentionner des catégories émergentes comme les formats de stockage pour l’ensemble du cycle de vie du ML
    Par exemple, Lance est un stockage en colonnes optimisé à la fois pour les tâches analytiques et les workloads vectoriels, avec prise en charge du versioning et de l’accès aléatoire
    C’est très important pour l’échantillonnage, le filtrage efficace et le traitement de données multimodales (par ex. la vidéo)
    Parmi les exemples similaires, on peut citer vortex et nimble de Meta

  • Je pense que le titre ‘Data Engineering for LLMs’ serait plus approprié

    • Bonne remarque. Vu le contenu, ‘Data Engineering for LLMs’ est beaucoup plus précis, donc je vais le transmettre immédiatement au responsable du projet
  • C’est peut-être un problème de traduction, mais l’explication initiale de la “Modern Data Stack” ne m’a pas inspiré confiance
    La partie 1_2_data_infra.md m’a semblé assez vague, mais
    les sections sur le nettoyage des données et les pipelines RAG étaient bien plus claires

    • Merci pour ce retour honnête
  • La version anglaise se trouve dans README_en.md

    • Merci ! J’ai remplacé le lien en haut par celui-ci. L’URL soumise à l’origine était data_engineering_book
      Le post avait été bloqué par le filtre anti-spam, mais l’auteur m’en a informé par e-mail, donc je l’ai invité à partager le contexte en commentaire. C’est maintenant reflété en haut
    • Merci d’avoir partagé le lien direct
  • Très intéressant, je l’ai mis en favoris. En revanche, je me demande si le README a été rédigé avec ChatGPT

    • Oui. Nous sommes une équipe chinoise et nous avons utilisé GPT pour la traduction en anglais. Merci pour le retour disant que cela donnait une impression de « fausse chaleur ». Nous allons à l’avenir retravailler cela avec un ton plus neutre et plus concis
    • J’ai eu la même impression. Il y a beaucoup de tableaux récapitulatifs et une tournure artificielle, ce qui donne fortement l’impression d’un texte écrit par un LLM. Même si ce n’était pas GPT, cela nécessiterait quand même une réécriture en profondeur
  • La formule “Data is the new oil, but only if you know how to refine it.” m’a marqué
    Le pétrole n’est pas utile non plus s’il n’est pas raffiné, donc une formulation comme « les données sont le nouveau pétrole, et elles n’ont de valeur qu’une fois raffinées » semblerait plus naturelle

  • La section ‘Vector DB vs Keyword Search’ était intéressante. Je me demande où vous placez la ligne de démarcation dans vos expérimentations de pipelines RAG
    D’après notre expérience, la recherche par mots-clés comme BM25 est plus forte sur les noms d’entités et les identifiants, tandis que la recherche vectorielle est meilleure pour les requêtes conceptuelles. Je me demande si le livre traite aussi de la recherche hybride ou du reranking

    • Excellente question. En production réelle, une approche hybride BM25+vecteur a été efficace dans la plupart des cas. Dans une proportion d’environ 70/30, les mots-clés sont avantagés pour les correspondances exactes
      L’essentiel, c’est le reranking. Il ne suffit pas de fusionner les résultats ; il faut réattribuer les scores avec un cross-encoder (par ex. Cohere ou un modèle custom)
      La recherche purement sémantique devient surtout avantageuse lorsque la requête porte principalement sur des concepts abstraits
    • Merci pour ces éclairages. Nous prévoyons de couvrir ce type de schéma dans une prochaine mise à jour. Nous sommes actuellement en congés du Nouvel An lunaire, donc cela pourrait prendre un peu de temps
  • Les illustrations de chaque chapitre sont en anglais (à l’exception des images dans README_en.md)

    • Merci de l’avoir signalé ! J’avais remarqué cette différence et j’ai immédiatement corrigé les diagrammes dans README_en.md. Cela devrait maintenant s’afficher correctement
  • Parquet seul ne suffit pas pour l’ingénierie des données moderne. Delta et Iceberg devraient aussi être inclus

    • Merci pour ce retour ! Je l’ai transmis au responsable de cette section. Nous sommes actuellement en vacances du Nouvel An lunaire, donc la mise à jour pourrait être un peu retardée. Bonne année !