6 points par GN⁺ 2026-03-16 | 1 commentaires | Partager sur WhatsApp
  • Explique visuellement le processus par lequel un ordinateur utilise des techniques de statistical learning pour identifier automatiquement des motifs dans les données et effectuer des prédictions
  • Visualise étape par étape la création d’un modèle qui distingue les logements de New York et de San Francisco à partir d’un jeu de données immobilier
  • En se concentrant sur les arbres de décision (decision tree), montre concrètement le processus d’apprentissage et de prédiction à travers des concepts comme le point de séparation (split point), la branche (branch) et le nœud feuille (leaf node)
  • Met visuellement en évidence le problème de surapprentissage (overfitting) lors de l’amélioration de la précision du modèle, tout en expliquant la différence entre données d’entraînement et données de test
  • Il s’agit d’un support d’apprentissage interactif et visuel conçu pour permettre une compréhension intuitive des concepts clés du machine learning

Concepts fondamentaux du machine learning

  • Le machine learning est une technique dans laquelle un ordinateur applique des méthodes de statistical learning pour identifier automatiquement des motifs dans les données et effectuer des prédictions précises sur cette base
  • L’exemple présenté consiste à construire un modèle qui classe des logements entre New York et San Francisco à partir de données immobilières
  • Ce type de tâche est appelé un problème de classification en machine learning

Distinction intuitive et caractéristiques (features)

  • San Francisco a un relief plus vallonné et une altitude plus élevée
    • L’altitude (elevation) d’un logement peut donc servir de critère utile pour distinguer les deux villes
    • Par exemple, au-dessus de 240 pieds d’altitude, on peut classer un logement comme étant à San Francisco
  • En ajoutant le prix par pied carré (price per square foot), on peut affiner davantage la séparation
    • Si l’altitude est inférieure ou égale à 240 pieds et que le prix par unité dépasse $1776, le logement est classé comme étant à New York
  • Chaque dimension des données est appelée une feature, un predictor ou une variable

Frontière (boundary) et apprentissage du modèle

  • On peut visualiser une frontière sur un nuage de points (scatterplot) en prenant l’altitude et le prix comme critères
  • Identifier mathématiquement cette frontière constitue le cœur du statistical learning
  • Le jeu de données réel comporte 7 dimensions, sur lesquelles le modèle est entraîné (training)
    • Une matrice de nuages de points (scatterplot matrix) permet d’explorer visuellement les relations entre variables

Fonctionnement d’un arbre de décision (Decision Tree)

  • Le machine learning utilise le statistical learning pour trouver des motifs dans les données, et l’arbre de décision en est une méthode représentative
  • Un arbre de décision segmente les données en appliquant des règles if-then basées sur une variable à la fois
  • Exemple : « si l’altitude dépasse un certain seuil, alors San Francisco »
  • Ces points de séparation sont appelés split points et forment les différentes branches (branches) de l’arbre

Précision du découpage et compromis

  • Une séparation initiale (par exemple à 240 pieds) classe mal certains logements de San Francisco, produisant des faux négatifs (false negatives)
  • À l’inverse, si l’on cherche à inclure tous les logements de San Francisco, des logements de New York seront aussi inclus, ce qui produit des faux positifs (false positives)
  • Le meilleur découpage (best split) est celui qui rend les données de chaque branche aussi homogènes (homogeneous) que possible
    • Parmi les méthodes de calcul utilisées, on trouve l’indice de Gini (Gini index) et l’entropie croisée (cross entropy)

Récursion et croissance de l’arbre

  • L’algorithme répète ce processus sur chaque sous-ensemble de données et étend l’arbre de manière récursive (recursion)
  • À basse altitude, le prix par pied carré devient la variable de séparation suivante ; à haute altitude, c’est le prix total qui est choisi
  • Plus les séparations se multiplient, plus la précision prédictive (prediction accuracy) de l’arbre augmente
    • L’ajout d’un niveau permet d’atteindre 84 %, puis plusieurs niveaux 96 %
    • En ajoutant toutes les branches, il est possible d’atteindre 100 % de précision
  • Les séparations finales sont les nœuds feuilles (leaf nodes), chacun classant les logements selon la classe majoritaire

Prédiction et validation

  • L’arbre de décision entraîné prédit la ville de chaque point de données en suivant les branches de l’arbre
  • Les données utilisées pour l’entraînement sont les training data, tandis que les nouvelles données sont les test data
  • Un modèle peut fonctionner parfaitement sur les données d’entraînement, mais voir ses performances baisser sur de nouvelles données
  • Cela est dû au surapprentissage (overfitting), car le modèle a appris jusqu’à des détails inutiles

Résumé et étape suivante

  • Le machine learning identifie des motifs en trouvant des frontières dans les données pour effectuer des prédictions
  • Les arbres de décision sont une méthode représentative de classification à l’aide de règles if-then
  • Le surapprentissage est le phénomène par lequel le modèle apprend même des séparations dénuées de sens, ce qui nuit à sa capacité de généralisation
  • Le texte suivant abordera la relation entre le surapprentissage et le compromis biais/variance (bias/variance tradeoff)

1 commentaires

 
GN⁺ 2026-03-16
Avis sur Hacker News
  • Je suis l’un des créateurs de R2D3. Ça me fait plaisir de revoir cet article aujourd’hui. Je répondrai aux questions ici ou sur Bluesky

    • J’aimerais visualiser un pipeline de collecte de données de cette façon, mais je ne sais pas par où commencer. J’ai l’image en tête, mais la réaliser sous forme de site web me semble intimidant
    • Dix ans plus tard, je me demande si vous prévoyez d’écrire un nouvel article
  • C’est vraiment un chef-d’œuvre. J’utilise cette explication interactive chaque fois que je présente le machine learning. Une collection de ressources similaires se trouve ici

    • Excellente liste. Seeing Theory avait fait parler d’elle sur HN il y a quelque temps, mais le site semble hors ligne maintenant. J’ai ajouté mon outil de visualisation de données dans cette PR. J’ai aussi retrouvé un lien corrigé vers Seeing Theory et l’ai ajouté
  • J’avais déjà mentionné la liste de ressources d’apprentissage S-TIER que j’ai créée.
    S-TIER désigne des contenus où animation, visualisation et interactivité sont parfaitement combinées.
    A-TIER est utile mais moins visuel, et les blogs centrés sur l’opinion sont tout en bas.
    Voici les sites S-TIER que j’ai retenus :
    growingswe.com/blog, ciechanow.ski/archives, mlu-explain.github.io, seeing-theory.brown.edu, svg-tutorial.com, lumafield.com/scan-of-the-month/health-wearables
    J’aimerais créer un gestionnaire de favoris capable de classer automatiquement tous les liens de blogs sur HN selon ces critères

    • Il y a aussi beaucoup de très bons exemples sur visxai.io. Regardez la section Hall of Fame en bas de page.
      Deux de mes projets passés que j’aime particulièrement sont Fill in the Blank et Grokking
  • Mis en favoris. La plupart des explications sur les LLM manquent de ce type de références visuelles.
    En général, on n’a soit qu’un article de 10 000 mots, soit un résumé d’une ligne sur X, sans niveau intermédiaire

    • Le contenu de 3Blue1Brown est vraiment remarquable. Il a son propre langage visuel
  • Ça date de 2015. Techniquement comme conceptuellement, c’était un travail en avance sur son temps

    • C’est dommage qu’il n’y ait pas d’autres ressources de Tony Hschu et Stephanie Jyee. Je me demande si quelqu’un en connaît d’autres
  • Vraiment superbe. C’est un domaine fascinant, à l’intersection de la visualisation de données et de l’IA/ML.
    Parmi les références utiles, il y a mlu-explain.github.io, visxai.io, les explorables de Google PAIR et poloclub de Georgia Tech

  • J’aimerais voir plus d’articles comme celui-ci. J’aime l’apprentissage visuel.
    Ça me fait penser à Build Your Own React. Ce n’est pas directement lié, mais c’est un blog dans un style similaire, facile à suivre. Ce format est très efficace pour apprendre

  • C’est de loin la meilleure explication des arbres de décision que j’aie vue jusqu’ici.
    L’animation qui montre visuellement le processus de découpage au fil du scroll est bien plus intuitive que les longues explications des manuels

  • Ces explications interactives restent les meilleurs exemples pour faire comprendre intuitivement des concepts de ML.
    Cette approche est bien plus efficace que les articles techniques qui commencent par les formules

  • Je me demande s’il existe des ressources qui expliquent des concepts plus avancés, comme le mécanisme d’attention des Transformers, dans le style de R2D3