6 points par GN⁺ 2026-03-16 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Explique visuellement le processus par lequel un ordinateur utilise des techniques de statistical learning pour identifier automatiquement des motifs dans les données et effectuer des prédictions
  • Visualise étape par étape la création d’un modèle qui distingue les logements de New York et de San Francisco à partir d’un jeu de données immobilier
  • En se concentrant sur les arbres de décision (decision tree), montre concrètement le processus d’apprentissage et de prédiction à travers des concepts comme le point de séparation (split point), la branche (branch) et le nœud feuille (leaf node)
  • Met visuellement en évidence le problème de surapprentissage (overfitting) lors de l’amélioration de la précision du modèle, tout en expliquant la différence entre données d’entraînement et données de test
  • Il s’agit d’un support d’apprentissage interactif et visuel conçu pour permettre une compréhension intuitive des concepts clés du machine learning

Concepts fondamentaux du machine learning

  • Le machine learning est une technique dans laquelle un ordinateur applique des méthodes de statistical learning pour identifier automatiquement des motifs dans les données et effectuer des prédictions précises sur cette base
  • L’exemple présenté consiste à construire un modèle qui classe des logements entre New York et San Francisco à partir de données immobilières
  • Ce type de tâche est appelé un problème de classification en machine learning

Distinction intuitive et caractéristiques (features)

  • San Francisco a un relief plus vallonné et une altitude plus élevée
    • L’altitude (elevation) d’un logement peut donc servir de critère utile pour distinguer les deux villes
    • Par exemple, au-dessus de 240 pieds d’altitude, on peut classer un logement comme étant à San Francisco
  • En ajoutant le prix par pied carré (price per square foot), on peut affiner davantage la séparation
    • Si l’altitude est inférieure ou égale à 240 pieds et que le prix par unité dépasse $1776, le logement est classé comme étant à New York
  • Chaque dimension des données est appelée une feature, un predictor ou une variable

Frontière (boundary) et apprentissage du modèle

  • On peut visualiser une frontière sur un nuage de points (scatterplot) en prenant l’altitude et le prix comme critères
  • Identifier mathématiquement cette frontière constitue le cœur du statistical learning
  • Le jeu de données réel comporte 7 dimensions, sur lesquelles le modèle est entraîné (training)
    • Une matrice de nuages de points (scatterplot matrix) permet d’explorer visuellement les relations entre variables

Fonctionnement d’un arbre de décision (Decision Tree)

  • Le machine learning utilise le statistical learning pour trouver des motifs dans les données, et l’arbre de décision en est une méthode représentative
  • Un arbre de décision segmente les données en appliquant des règles if-then basées sur une variable à la fois
  • Exemple : « si l’altitude dépasse un certain seuil, alors San Francisco »
  • Ces points de séparation sont appelés split points et forment les différentes branches (branches) de l’arbre

Précision du découpage et compromis

  • Une séparation initiale (par exemple à 240 pieds) classe mal certains logements de San Francisco, produisant des faux négatifs (false negatives)
  • À l’inverse, si l’on cherche à inclure tous les logements de San Francisco, des logements de New York seront aussi inclus, ce qui produit des faux positifs (false positives)
  • Le meilleur découpage (best split) est celui qui rend les données de chaque branche aussi homogènes (homogeneous) que possible
    • Parmi les méthodes de calcul utilisées, on trouve l’indice de Gini (Gini index) et l’entropie croisée (cross entropy)

Récursion et croissance de l’arbre

  • L’algorithme répète ce processus sur chaque sous-ensemble de données et étend l’arbre de manière récursive (recursion)
  • À basse altitude, le prix par pied carré devient la variable de séparation suivante ; à haute altitude, c’est le prix total qui est choisi
  • Plus les séparations se multiplient, plus la précision prédictive (prediction accuracy) de l’arbre augmente
    • L’ajout d’un niveau permet d’atteindre 84 %, puis plusieurs niveaux 96 %
    • En ajoutant toutes les branches, il est possible d’atteindre 100 % de précision
  • Les séparations finales sont les nœuds feuilles (leaf nodes), chacun classant les logements selon la classe majoritaire

Prédiction et validation

  • L’arbre de décision entraîné prédit la ville de chaque point de données en suivant les branches de l’arbre
  • Les données utilisées pour l’entraînement sont les training data, tandis que les nouvelles données sont les test data
  • Un modèle peut fonctionner parfaitement sur les données d’entraînement, mais voir ses performances baisser sur de nouvelles données
  • Cela est dû au surapprentissage (overfitting), car le modèle a appris jusqu’à des détails inutiles

Résumé et étape suivante

  • Le machine learning identifie des motifs en trouvant des frontières dans les données pour effectuer des prédictions
  • Les arbres de décision sont une méthode représentative de classification à l’aide de règles if-then
  • Le surapprentissage est le phénomène par lequel le modèle apprend même des séparations dénuées de sens, ce qui nuit à sa capacité de généralisation
  • Le texte suivant abordera la relation entre le surapprentissage et le compromis biais/variance (bias/variance tradeoff)

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.