15 points par GN⁺ 2026-02-16 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • À l’ère des grands modèles, la qualité des données détermine la limite supérieure des performances du modèle
  • Un guide open source qui fournit des connaissances structurées en ingénierie des données à cette fin
  • Couvre l’ensemble du processus, notamment le nettoyage des données de préentraînement, l’alignement multimodal, les pipelines de données RAG et la génération de données synthétiques
  • Composé de 5 parties et 13 chapitres. En plus, 5 projets capstone pratiques, du code exécutable et des conceptions d’architecture sont inclus pour soutenir l’apprentissage en situation réelle
  • Traite des données texte, image et vidéo à l’aide d’une stack technologique moderne comme Ray, Spark, CLIP et DVC
  • Peut servir de référence concrète pour les concepteurs de pipelines de données IA, notamment les chercheurs en LLM, les data engineers et les spécialistes MLOps

Présentation

  • À l’ère des grands modèles, la qualité des données détermine les limites des performances du modèle
    • Créé pour combler le manque de ressources structurées sur l’ingénierie des données pour les LLM
  • Le livre couvre l’ensemble de la stack technique, du nettoyage des données de préentraînement à l’alignement multimodal, au RAG et à la génération de données synthétiques
    • Extraction de corpus de haute qualité à partir de grandes masses de données bruitées comme Common Crawl
    • Collecte, nettoyage et alignement de données image-texte, vidéo et audio
    • Génération automatique de données SFT, RLHF et CoT
    • Construction de pipelines RAG, incluant l’analyse de documents d’entreprise et leur segmentation en unités sémantiques
  • 5 projets capstone de bout en bout pour un apprentissage centré sur la pratique
  • Consultation en ligne : https://datascale-ai.github.io/data_engineering_book/en/

Structure du livre

  • La structure globale correspond à un pipeline complet d’ingénierie des données, des données brutes jusqu’à l’application
  • Composé de 6 parties, 13 chapitres et 5 projets
    • Part 1: Infrastructure et concepts fondamentaux
    • Part 2: Ingénierie des données texte de préentraînement
    • Part 3: Ingénierie des données multimodales
    • Part 4: Ingénierie des données d’alignement et synthétiques
    • Part 5: Ingénierie des données au niveau applicatif
    • Part 6: Projets capstone (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

Principales caractéristiques

Théorie complète

  • La philosophie Data-Centric AI irrigue l’ensemble de l’ouvrage
  • Couvre l’ensemble du cycle de vie des données des LLM, du préentraînement au fine-tuning, puis au RLHF et au RAG
  • Inclut des sujets avancés comme les lois de passage à l’échelle, l’évaluation de la qualité des données et l’alignement multimodal

Stack technologique moderne

  • Calcul distribué : Ray Data, Spark
  • Stockage de données : Parquet, WebDataset, Vector Databases
  • Traitement de texte : Trafilatura, KenLM, MinHash LSH
  • Traitement multimodal : CLIP, ColPali, img2dataset
  • Versioning des données : DVC, LakeFS

Projets capstone riches et concrets

  • Mini-C4: construction d’un corpus texte de haute qualité avec Trafilatura + Ray + MinHash
  • Legal Expert SFT: jeu de données d’instructions métier basé sur Self-Instruct + CoT
  • LLaVA Multimodal: génération d’un jeu de données d’instructions visuelles avec alignement Bbox et interleaving multi-images
  • Math Textbook: construction d’un jeu de données de raisonnement avec Evol-Instruct + validation en sandbox
  • Financial Report RAG: implémentation d’un système de question-réponse multimodal avec ColPali + Qwen-VL

Développement local

  • Environnement requis : Python 3.8 ou supérieur, MkDocs Material, mkdocs-static-i18n
  • Installation et prévisualisation
    • Cloner le dépôt avec git clone, puis installer les dépendances
    • Exécuter mkdocs serve pour une prévisualisation locale (prise en charge du basculement chinois/anglais)
  • Build du site statique : exécuter mkdocs build pour générer le résultat dans le répertoire site/

Structure du projet

  • Le dossier docs/ contient les contenus en chinois (zh/) et en anglais (en/)
  • Répertoires de ressources tels que images/, stylesheets/, javascripts/, etc.
  • La configuration CI/CD est incluse dans .github/workflows/
  • La configuration du site est gérée via mkdocs.yml
  • La licence est la MIT License

Public visé

  • Ingénieurs R&D LLM, data engineers, ingénieurs MLOps, PM IA techniques, chercheurs sur les pipelines de données LLM

Licence

  • MIT License

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.