- Un manuel en ligne consacré aux principaux outils et techniques de la data science en Python, dont l’intégralité du contenu est publiée sur un site web et sur GitHub
- Proposé au format Jupyter Notebook, il permet un apprentissage orienté pratique, avec code et texte réunis
- Le texte est diffusé sous licence CC-BY-NC-ND et les exemples de code sous licence MIT, ce qui permet une utilisation libre à des fins non commerciales
- Il couvre de manière structurée les bibliothèques clés de l’analyse de données et du machine learning comme IPython, NumPy, Pandas, Matplotlib et Scikit-Learn
- C’est une ressource utile, des débutants en data science aux praticiens, pour maîtriser le workflow standard de l’écosystème Python
Vue d’ensemble
- Ce site contient l’intégralité du « Python Data Science Handbook » de Jake VanderPlas
- L’ouvrage original a été publié chez O’Reilly, et la version web est disponible gratuitement
- L’ensemble du contenu est fourni sous forme de Jupyter Notebooks dans un dépôt GitHub
- Le texte est diffusé sous licence CC-BY-NC-ND et les exemples de code sous licence MIT
- L’usage non commercial et la réutilisation du code sont autorisés
- Si les lecteurs le trouvent utile, ils peuvent soutenir l’auteur en achetant l’ouvrage original
Structure du sommaire
- Le livre se compose de 5 chapitres principaux et d’une annexe
Chapitre 1 : IPython – au-delà du Python standard
- Présentation des fonctionnalités et de l’usage de l’environnement IPython
- Y compris le système d’aide, les raccourcis clavier, les commandes magiques et l’intégration des commandes shell
- Couvre aussi l’historique d’exécution du code, le débogage et les fonctions de mesure de performances
Chapitre 2 : Introduction à NumPy
- Présente les bases du calcul numérique à l’aide des tableaux NumPy
- Y compris les types de données, le broadcasting, les masques booléens, le tri et les tableaux structurés
- Explique l’utilisation des opérations sur tableaux et des fonctions d’agrégation
Chapitre 3 : Manipulation des données avec Pandas
- Couvre les objets fondamentaux de Pandas et ses fonctions de traitement des données
- Y compris l’indexation, la gestion des valeurs manquantes, le groupement, les tableaux croisés dynamiques et les séries temporelles
- Présente aussi les opérations hautes performances via
eval() et query()
Chapitre 4 : Visualisation avec Matplotlib
- Explique les méthodes de visualisation de données avec Matplotlib et Seaborn
- Y compris différents types de graphiques comme les courbes, nuages de points, histogrammes et density plots
- Couvre aussi des fonctions avancées comme les légendes, barres de couleurs, feuilles de style, graphiques 3D et visualisation de données géographiques
Chapitre 5 : Machine learning
- Couvre les concepts de base et les algorithmes du machine learning, avec Scikit-Learn au centre
- Y compris les hyperparamètres, la validation de modèles et la feature engineering
- Présente des modèles majeurs comme Naive Bayes, la régression linéaire, les SVM, les forêts aléatoires, la PCA, les k-means et les GMM
- Propose un exemple de pipeline de reconnaissance faciale pour illustrer une application concrète
Annexe : code des figures
- Regroupe le code de visualisation utilisé dans le corps du texte
- Permet de reproduire et de modifier chaque figure
Intérêt pratique
- Offre aux apprenants en data science une compréhension intégrée de l’écosystème Python
- Le format notebook exécutable permet une utilisation pour l’enseignement, la recherche et le prototypage
- Publié sous licence open source, il facilite l’extension continue et les contributions de la communauté
2 commentaires
https://product.kyobobook.co.kr/detail/S000201558138
Analyse de données avec des bibliothèques Python
C’est un livre écrit par Wes McKinney, le créateur de pandas, et il est également très bien comme introduction à la data science. Je l’avais lu à la sortie de la 2e édition... et en cherchant maintenant, je vois que la 3e édition est sortie.
Réactions sur Hacker News
J’ai vraiment adoré la conférence Statistics for Hackers de Jake VanderPlas
Voir les slides
Par exemple, si la prévalence d’une maladie est de 1/10 000 et que la précision du test est de 99 %, un résultat positif ne signifie pas pour autant qu’il y a 99 % de chances d’avoir la maladie
Ce genre de livre est toujours intéressant
Il couvre à grands traits un large éventail de sujets, comme la manipulation de données, la visualisation ou le machine learning, alors que chacun pourrait faire l’objet d’un livre entier
Il est difficile de trouver l’équilibre entre l’apprentissage de la programmation et l’introduction des concepts et de la théorie, mais ce livre semble y parvenir en tant qu’ouvrage d’initiation
Ce livre a été incroyablement utile quand j’ai commencé la data science en 2017-2018
Jake était un excellent pédagogue
C’est intéressant qu’il ait choisi Pandas aujourd’hui
Il semble sans doute avoir privilégié la transmission des concepts généraux plutôt que les outils les plus récents
À mon premier poste, je m’étais appuyé sur un billet de blog à propos de la Kernel Density Estimation (KDE), et ça m’avait énormément servi
C’est à partir de là que j’ai commencé à apprécier le travail de Jake
Une version en ligne du livre est disponible sur learningds.org
La licence est CC-BY-NC-ND
Je ne comprends pas très bien pourquoi certains n’aiment pas Pandas
Ce n’est pas un outil parfait, mais notre base de code contient des milliers de lignes de Pandas et cela n’a presque jamais provoqué de bug en production
Nous l’utilisons de manière fiable avec un wrapper de schéma statique et un vérificateur de types
C’était un excellent auteur, et son blog me manque
Son article sur les tableaux croisés dynamiques m’avait particulièrement marqué, et son contenu semble maintenant inclus dans le livre
On peut le vérifier sur le site officiel d’Altair
Même si ce livre a été écrit il y a 8 ans, il existe une 2e édition du même auteur
Elle est indiquée comme « Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023… »
On peut la comparer à l’édition 2016 du lien d’origine
C’est l’un des rares livres sur la data science que j’ai lus du début à la fin en 2020-2021
Je le recommanderais encore aujourd’hui