Manuel de data science en Python

(jakevdp.github.io)

43 points par GN⁺ 2025-12-04 | 2 commentaires | Partager sur WhatsApp

Un manuel en ligne consacré aux principaux outils et techniques de la data science en Python, dont l’intégralité du contenu est publiée sur un site web et sur GitHub
Proposé au format Jupyter Notebook, il permet un apprentissage orienté pratique, avec code et texte réunis
Le texte est diffusé sous licence CC-BY-NC-ND et les exemples de code sous licence MIT, ce qui permet une utilisation libre à des fins non commerciales
Il couvre de manière structurée les bibliothèques clés de l’analyse de données et du machine learning comme IPython, NumPy, Pandas, Matplotlib et Scikit-Learn
C’est une ressource utile, des débutants en data science aux praticiens, pour maîtriser le workflow standard de l’écosystème Python

Vue d’ensemble

Ce site contient l’intégralité du « Python Data Science Handbook » de Jake VanderPlas
- L’ouvrage original a été publié chez O’Reilly, et la version web est disponible gratuitement
- L’ensemble du contenu est fourni sous forme de Jupyter Notebooks dans un dépôt GitHub
Le texte est diffusé sous licence CC-BY-NC-ND et les exemples de code sous licence MIT
- L’usage non commercial et la réutilisation du code sont autorisés
Si les lecteurs le trouvent utile, ils peuvent soutenir l’auteur en achetant l’ouvrage original

Structure du sommaire

Le livre se compose de 5 chapitres principaux et d’une annexe

Chapitre 1 : IPython – au-delà du Python standard

Présentation des fonctionnalités et de l’usage de l’environnement IPython
- Y compris le système d’aide, les raccourcis clavier, les commandes magiques et l’intégration des commandes shell
- Couvre aussi l’historique d’exécution du code, le débogage et les fonctions de mesure de performances

Chapitre 2 : Introduction à NumPy

Présente les bases du calcul numérique à l’aide des tableaux NumPy
- Y compris les types de données, le broadcasting, les masques booléens, le tri et les tableaux structurés
- Explique l’utilisation des opérations sur tableaux et des fonctions d’agrégation

Chapitre 3 : Manipulation des données avec Pandas

Couvre les objets fondamentaux de Pandas et ses fonctions de traitement des données
- Y compris l’indexation, la gestion des valeurs manquantes, le groupement, les tableaux croisés dynamiques et les séries temporelles
- Présente aussi les opérations hautes performances via eval() et query()

Chapitre 4 : Visualisation avec Matplotlib

Explique les méthodes de visualisation de données avec Matplotlib et Seaborn
- Y compris différents types de graphiques comme les courbes, nuages de points, histogrammes et density plots
- Couvre aussi des fonctions avancées comme les légendes, barres de couleurs, feuilles de style, graphiques 3D et visualisation de données géographiques

Chapitre 5 : Machine learning

Couvre les concepts de base et les algorithmes du machine learning, avec Scikit-Learn au centre
- Y compris les hyperparamètres, la validation de modèles et la feature engineering
- Présente des modèles majeurs comme Naive Bayes, la régression linéaire, les SVM, les forêts aléatoires, la PCA, les k-means et les GMM
- Propose un exemple de pipeline de reconnaissance faciale pour illustrer une application concrète

Annexe : code des figures

Regroupe le code de visualisation utilisé dans le corps du texte
- Permet de reproduire et de modifier chaque figure

Intérêt pratique

Offre aux apprenants en data science une compréhension intégrée de l’écosystème Python
Le format notebook exécutable permet une utilisation pour l’enseignement, la recherche et le prototypage
Publié sous licence open source, il facilite l’extension continue et les contributions de la communauté

2 commentaires

aer0700 2025-12-06

https://product.kyobobook.co.kr/detail/S000201558138
Analyse de données avec des bibliothèques Python
C’est un livre écrit par Wes McKinney, le créateur de pandas, et il est également très bien comme introduction à la data science. Je l’avais lu à la sortie de la 2e édition... et en cherchant maintenant, je vois que la 3e édition est sortie.

GN⁺ 2025-12-04

Réactions sur Hacker News

J’ai vraiment adoré la conférence Statistics for Hackers de Jake VanderPlas
Voir les slides
- Merci pour le partage. Ça rappelle à quel point raisonner en fréquences plutôt qu’en probabilités permet d’éviter des erreurs
  Par exemple, si la prévalence d’une maladie est de 1/10 000 et que la précision du test est de 99 %, un résultat positif ne signifie pas pour autant qu’il y a 99 % de chances d’avoir la maladie
Ce genre de livre est toujours intéressant
Il couvre à grands traits un large éventail de sujets, comme la manipulation de données, la visualisation ou le machine learning, alors que chacun pourrait faire l’objet d’un livre entier
Il est difficile de trouver l’équilibre entre l’apprentissage de la programmation et l’introduction des concepts et de la théorie, mais ce livre semble y parvenir en tant qu’ouvrage d’initiation
Ce livre a été incroyablement utile quand j’ai commencé la data science en 2017-2018
Jake était un excellent pédagogue
C’est intéressant qu’il ait choisi Pandas aujourd’hui
Il semble sans doute avoir privilégié la transmission des concepts généraux plutôt que les outils les plus récents
- Le livre ayant été publié à l’origine en 2016, c’est probablement encore la 1re édition
- Pandas reste selon moi le standard de l’industrie. Polars ou Spark sont davantage axés sur les performances en data engineering, et sont moins adaptés à l’ensemble de la data science
- Comme le livre est assez ancien, parler d’« aujourd’hui » n’est peut-être pas très approprié
- Je ne vois pas bien quel serait le problème avec Pandas
À mon premier poste, je m’étais appuyé sur un billet de blog à propos de la Kernel Density Estimation (KDE), et ça m’avait énormément servi
C’est à partir de là que j’ai commencé à apprécier le travail de Jake
Une version en ligne du livre est disponible sur learningds.org
La licence est CC-BY-NC-ND
Je ne comprends pas très bien pourquoi certains n’aiment pas Pandas
Ce n’est pas un outil parfait, mais notre base de code contient des milliers de lignes de Pandas et cela n’a presque jamais provoqué de bug en production
Nous l’utilisons de manière fiable avec un wrapper de schéma statique et un vérificateur de types
- Je serais curieux de savoir s’il s’agit d’un wrapper maison, ou s’il existe un package PyPI que vous recommanderiez
C’était un excellent auteur, et son blog me manque
Son article sur les tableaux croisés dynamiques m’avait particulièrement marqué, et son contenu semble maintenant inclus dans le livre
- C’est aussi le créateur de la bibliothèque de visualisation Python Altair (basée sur Vega-Lite)
  On peut le vérifier sur le site officiel d’Altair
Même si ce livre a été écrit il y a 8 ans, il existe une 2e édition du même auteur
- Il y a une version notebook de la 2e édition dans le dépôt GitHub
  Elle est indiquée comme « Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023… »
  On peut la comparer à l’édition 2016 du lien d’origine
C’est l’un des rares livres sur la data science que j’ai lus du début à la fin en 2020-2021
Je le recommanderais encore aujourd’hui