Introduction visuelle au machine learning (2015)

(r2d3.us)

6 points par GN⁺ 2026-03-16 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Explique visuellement le processus par lequel un ordinateur utilise des techniques de statistical learning pour identifier automatiquement des motifs dans les données et effectuer des prédictions
Visualise étape par étape la création d’un modèle qui distingue les logements de New York et de San Francisco à partir d’un jeu de données immobilier
En se concentrant sur les arbres de décision (decision tree), montre concrètement le processus d’apprentissage et de prédiction à travers des concepts comme le point de séparation (split point), la branche (branch) et le nœud feuille (leaf node)
Met visuellement en évidence le problème de surapprentissage (overfitting) lors de l’amélioration de la précision du modèle, tout en expliquant la différence entre données d’entraînement et données de test
Il s’agit d’un support d’apprentissage interactif et visuel conçu pour permettre une compréhension intuitive des concepts clés du machine learning

Concepts fondamentaux du machine learning

Le machine learning est une technique dans laquelle un ordinateur applique des méthodes de statistical learning pour identifier automatiquement des motifs dans les données et effectuer des prédictions précises sur cette base
L’exemple présenté consiste à construire un modèle qui classe des logements entre New York et San Francisco à partir de données immobilières
Ce type de tâche est appelé un problème de classification en machine learning

San Francisco a un relief plus vallonné et une altitude plus élevée
- L’altitude (elevation) d’un logement peut donc servir de critère utile pour distinguer les deux villes
- Par exemple, au-dessus de 240 pieds d’altitude, on peut classer un logement comme étant à San Francisco
En ajoutant le prix par pied carré (price per square foot), on peut affiner davantage la séparation
- Si l’altitude est inférieure ou égale à 240 pieds et que le prix par unité dépasse $1776, le logement est classé comme étant à New York
Chaque dimension des données est appelée une feature, un predictor ou une variable

On peut visualiser une frontière sur un nuage de points (scatterplot) en prenant l’altitude et le prix comme critères
Identifier mathématiquement cette frontière constitue le cœur du statistical learning
Le jeu de données réel comporte 7 dimensions, sur lesquelles le modèle est entraîné (training)
- Une matrice de nuages de points (scatterplot matrix) permet d’explorer visuellement les relations entre variables

Le machine learning utilise le statistical learning pour trouver des motifs dans les données, et l’arbre de décision en est une méthode représentative
Un arbre de décision segmente les données en appliquant des règles if-then basées sur une variable à la fois
Exemple : « si l’altitude dépasse un certain seuil, alors San Francisco »
Ces points de séparation sont appelés split points et forment les différentes branches (branches) de l’arbre

Une séparation initiale (par exemple à 240 pieds) classe mal certains logements de San Francisco, produisant des faux négatifs (false negatives)
À l’inverse, si l’on cherche à inclure tous les logements de San Francisco, des logements de New York seront aussi inclus, ce qui produit des faux positifs (false positives)
Le meilleur découpage (best split) est celui qui rend les données de chaque branche aussi homogènes (homogeneous) que possible
- Parmi les méthodes de calcul utilisées, on trouve l’indice de Gini (Gini index) et l’entropie croisée (cross entropy)

L’algorithme répète ce processus sur chaque sous-ensemble de données et étend l’arbre de manière récursive (recursion)
À basse altitude, le prix par pied carré devient la variable de séparation suivante ; à haute altitude, c’est le prix total qui est choisi
Plus les séparations se multiplient, plus la précision prédictive (prediction accuracy) de l’arbre augmente
- L’ajout d’un niveau permet d’atteindre 84 %, puis plusieurs niveaux 96 %
- En ajoutant toutes les branches, il est possible d’atteindre 100 % de précision
Les séparations finales sont les nœuds feuilles (leaf nodes), chacun classant les logements selon la classe majoritaire

L’arbre de décision entraîné prédit la ville de chaque point de données en suivant les branches de l’arbre
Les données utilisées pour l’entraînement sont les training data, tandis que les nouvelles données sont les test data
Un modèle peut fonctionner parfaitement sur les données d’entraînement, mais voir ses performances baisser sur de nouvelles données
Cela est dû au surapprentissage (overfitting), car le modèle a appris jusqu’à des détails inutiles

Le machine learning identifie des motifs en trouvant des frontières dans les données pour effectuer des prédictions
Les arbres de décision sont une méthode représentative de classification à l’aide de règles if-then
Le surapprentissage est le phénomène par lequel le modèle apprend même des séparations dénuées de sens, ce qui nuit à sa capacité de généralisation
Le texte suivant abordera la relation entre le surapprentissage et le compromis biais/variance (bias/variance tradeoff)