Data science financière, partie 0 : 7 différences entre la data science financière et le ML général
(han-co.com)Je lance la série « Bases de la data science financière ». Cet article en est le premier épisode (partie 0). À partir de cette partie 0, je vais expliquer pas à pas, comme dans un livre, pourquoi la data science fonctionne différemment en pratique dans l’évaluation du crédit par rapport au ML classique. J’aborderai des sujets comme le reject inference, l’inférence causale, la calibration, la validation, l’équité et la réglementation.
Le texte original a d’abord été publié sur mon blog → https://han-co.com/ko/blog/part0-finance-ds-7-differences
Je ne suis pas un vétéran ayant travaillé depuis très longtemps dans ce domaine. J’ai commencé comme ingénieur dans l’industrie manufacturière, puis je suis passé à la finance, où je travaille aujourd’hui comme data scientist dans l’évaluation du crédit. Il vaut donc mieux lire ce texte non pas comme « voici la bonne réponse », mais comme une mise en ordre de ce qui m’a fait tâtonner en arrivant dans ce domaine, de ces moments où je me disais : « Tiens, j’ai pourtant suivi le manuel, alors pourquoi est-ce que ça se trompe sans cesse ? »
Ce qui est intéressant, c’est que je n’étais pas le seul à vivre ça. Même des personnes très compétentes sur tout le cycle classique du ML, de la construction du modèle à son évaluation, font souvent des erreurs similaires lorsqu’elles arrivent dans l’évaluation du crédit. Les métriques de validation sont bonnes, mais en production les performances ne suivent pas ; l’accuracy est à 99 %, mais personne ne s’en réjouit ; on réussit à gratter 0,01 de performance et le département risque bloque le déploiement…
Ce n’est pas tant une question de niveau qu’une question de règles du jeu : la finance — en particulier l’évaluation du crédit — n’est pas simplement « appliquer du ML à des données financières », c’est un domaine où les règles sont différentes. Et presque tout ce que cette série abordera ensuite — reject inference, inférence causale, calibration, validation, équité — repose au fond sur ces règles.
1. Le biais de sélection est la norme par défaut
Il y a en réalité un grand trou dans nos données d’entraînement : nous ne voyons que les résultats de remboursement des clients approuvés. Nous ne saurons jamais si les clients refusés auraient réellement remboursé ou fait défaut. Après tout, aucune carte ne leur a été délivrée au départ.
En ML général, on suppose souvent que « les données représentent la population ». Mais dans l’évaluation du crédit, cette hypothèse est cassée dès le départ. Les données d’entraînement proviennent de clients déjà approuvés dans le passé, alors que les individus que le modèle doit juger sont l’ensemble des demandeurs qui n’ont pas encore été approuvés. Ce ne sont pas les mêmes populations.
Ensemble des demandeurs
├─ Approuvés (résultat observé)
│ ├─ Remboursement → remboursement normal
│ └─ Défaut → retard de paiement / défaut
└─ Refusés (résultat non observé) → ??? impossible de savoir s’ils auraient remboursé ou fait défaut
Le modèle n’apprend qu’à partir des « clients approuvés ». Les résultats réels des clients refusés ne restent pas dans les données.
Ce seul point crée plus de problèmes qu’on ne l’imagine. Comme il n’existe pas de données post-refus pour les « clients refusés », le modèle ne peut pas apprendre cette zone qu’il refuse lui-même et hérite tel quel des biais de l’ancienne politique d’octroi. C’est pourquoi, dans ce domaine, le reject inference et l’inférence causale ne sont pas des techniques particulières mais des bases. (Je traiterai chacun de ces deux sujets plus en profondeur dans un article dédié.)
2. Le temps va dans un seul sens, et les modèles vieillissent
Si vous avez mélangé les données au hasard puis appliqué une K-fold, vous avez en réalité un peu triché avec le futur. Les données de validation contiennent alors un mélange de passé et de futur.
Les données de crédit suivent le temps. Un modèle entraîné sur des clients de 2024 sert à évaluer des clients de 2026. Entre-temps, la conjoncture change, les taux montent, les comportements clients et les produits évoluent. La distribution dérive (drift). Une K-fold aléatoire mélange passé et futur, ce qui injecte discrètement dans la validation une information dont on ne disposera jamais en conditions réelles.
C’est pourquoi, en finance, la validation de base est l’OOT (out-of-time), c’est-à-dire une évaluation sur une période postérieure à celle de l’entraînement. Après le déploiement, il faut continuer à surveiller l’ampleur des déplacements de distribution et la manière dont les clients évoluent avec le temps. Un modèle commence à vieillir dès l’instant où il est mis en production.
3. « Qui est le plus risqué ? » ne suffit pas ; il faut « combien de % exactement ? »
Dans un problème de classification classique, il suffit souvent d’avoir le bon ordre. Il suffit de bien classer qui est plus risqué que qui, et l’AUC mesure cette capacité.
Mais dans le crédit, on ne peut pas s’arrêter là. Il faut une probabilité absolue, c’est-à-dire une PD calibrée (calibrated PD). Il faut pouvoir dire : « La probabilité de défaut de ce client est exactement de 3,2 % ». C’est ce chiffre qui sert à fixer le prix (risk-based pricing), à constituer des provisions (provisioning) et à calculer la perte attendue. Le simple rang ne permet de faire aucune de ces choses.
C’est pourquoi on voit assez souvent ce cas en crédit : un modèle avec une excellente AUC, mais une PD fausse. Le pouvoir discriminant (discrimination) et la calibration sont deux axes différents, et il faut maîtriser les deux. (J’ai également prévu un article consacré uniquement à la calibration. On oublie ce point plus souvent qu’on ne le pense.)
4. Les coûts sont asymétriques, arrivent très tard, et se mesurent en montants
L’accuracy compte toutes les erreurs de la même manière. Mais en crédit, le poids des erreurs n’a rien d’équivalent.
Le gain lié à l’approbation d’un bon client correspond à la marge (quelques milliers de yens), alors que le coût d’un seul défaut est de l’ordre de LGD × EAD (plusieurs centaines de milliers de yens). L’un pèse des dizaines de fois plus que l’autre. Ce que nous devons optimiser n’est donc pas l’accuracy, mais le revenu attendu et la perte attendue.
Revenu attendu = (1 − PD) × marge − PD × LGD × EAD
La perte attendue (EL) en cas de défaut se décompose à son tour comme le produit de trois facteurs.
EL = PD × LGD × EAD
- PD : probabilité de défaut
- LGD : taux de perte en cas de défaut
- EAD : exposition au moment du défaut
Ces trois éléments relèvent chacun d’un problème de modélisation distinct. Le cœur du scoring, c’est la PD.
En plus, la bonne réponse n’arrive que bien plus tard. Pour un client approuvé aujourd’hui, on ne saura s’il fera défaut ou non qu’au bout de 12 à 24 mois. Le fait que les labels arrivent si tard entre fortement en tension avec la manière de penser du ML, habituée à des boucles de feedback rapides. Il faut continuer à accumuler les décisions sans encore connaître les résultats.
5. La stabilité l’emporte sur la performance limite
Dans une compétition de ML, il est vertueux de gagner ne serait-ce que 0,001 d’AUC. Comme dans les concours de type Kaggle. Mais sur un modèle de crédit en production, cela devient souvent une mauvaise affaire.
Un modèle devenu instable pour récupérer une goutte de performance supplémentaire finit vite par coûter cher en exploitation. C’est le cas d’un modèle dont le score s’agite au moindre mouvement des entrées, qu’on ne parvient pas à reproduire, ou qui crée des zones étranges où « plus le revenu est élevé, plus le score est faible ». La stabilité opérationnelle, la reproductibilité et la monotonie (monotonicity) comptent souvent davantage que quelques décimales de performance. C’est aussi pour cela que la régression logistique reste un standard du scoring à l’ère des GBM.
6. L’interprétabilité n’est pas une option, c’est une obligation
Dans d’autres domaines, pouvoir expliquer « pourquoi cette prédiction est sortie » est un bonus appréciable. Mais dans le crédit, l’absence d’explication suffit souvent à rendre le modèle illégal ou impossible à déployer.
La notification des motifs de refus (adverse action, 否決理由), les explications à fournir aux autorités de supervision et la gouvernance interne exigent toutes qu’on puisse expliquer « pourquoi ce score ». Un modèle boîte noire n’est donc pas quelque chose d’élégant : c’est un risque en soi. Voilà pourquoi, dans la pratique, on préfère des structures comme le WOE ou les scorecards, qui font naturellement ressortir les motifs, et pourquoi, même lorsqu’on utilise du boosting, on met aussi en place un dispositif pour extraire les raisons via SHAP.
7. Une surcharge permanente de réglementation et de gouvernance
Enfin, on ne peut pas déployer un modèle librement.
Le travail ne s’arrête pas une fois le modèle terminé. La gestion du risque modèle (MRM), la validation indépendante, la documentation et la traçabilité d’audit font partie intégrante du processus de développement. Développeurs et validateurs sont séparés, et un nouveau modèle passe généralement longtemps en shadow mode avant d’entrer réellement dans la décision. L’intuition startup du type « déployons vite un bon modèle » fonctionne mal ici. S’il y a de la lenteur, c’est pour de bonnes raisons : un seul modèle peut avoir des effets jusque sur les provisions et le calcul du capital.
(Quand on travaille au Japon, on le ressent encore plus concrètement. Pour l’émission de cartes et la fixation des limites, la loi sur les ventes à crédit à tempérament (割賦販売法) impose de calculer le montant estimé de capacité de paiement (支払可能見込額), si bien que le modèle devient directement une base juridique. Je reviendrai sur ce point dans l’épisode consacré à la réglementation.)
Est-ce que l’IA ne va pas simplement tout faire à notre place ?
On me pose souvent cette question ces temps-ci. Avec la rapidité des progrès de l’IA générative et des agents, faut-il vraiment encore apprendre ce type de connaissances en modélisation ? Ma réponse honnête est que cela devient au contraire encore plus nécessaire — du moins pour l’instant.
Les sept points ci-dessus ne concernent pas un algorithme particulier, mais la structure même du problème dans ce domaine. Des contrefactuels non observés, des données qui suivent l’ordre du temps, des coûts asymétriques, des probabilités absolues, de la stabilité, une obligation d’explication, de la réglementation. Ajouter un LLM à tout cela ne fait pas disparaître ces problèmes. Au contraire, il faut quelqu’un qui sache qu’ils existent pour empêcher un modèle généré automatiquement de se tromper avec assurance.
Les points 6 et 7 sont particulièrement centraux. Il faut expliquer les motifs de refus, valider le modèle de manière indépendante, et les résultats servent de base aux provisions et au calcul du capital. Les modèles boîte noire se heurtent structurellement à ces exigences. C’est pourquoi l’IA générative ne remplace pas d’un bloc l’évaluation du crédit ; à la place, restent à des postes de décision les personnes qui comprennent pourquoi il faut de l’explicabilité et comment la validation doit être menée, afin de juger les résultats produits par cette IA.
Bien sûr, certaines choses changent. L’écriture de code répétitif ou l’analyse élémentaire relèvent de plus en plus du rôle de l’IA. Le centre de gravité du métier se déplace donc : moins vers la capacité à écrire manuellement un modèle, davantage vers le jugement nécessaire pour bien formuler le problème, le valider et l’auditer. C’est précisément ce second aspect que cette série veut traiter.
Alors, en quoi consiste l’expertise dans ce domaine ?
Si l’on résume ces sept points en une seule phrase, cela donne ceci.
La data science financière n’est pas une « compétition de précision prédictive » ; c’est l’art d’estimer de manière explicable et stable un contrefactuel non observé (counterfactual) dans un environnement où le temps s’écoule et où les coûts sont asymétriques.
Les métriques d’évaluation et les scorecards sont un peu comme un droit d’entrée. La vraie différence de niveau se joue sur le biais de sélection, l’inférence causale, la validation et la gouvernance.
Dans cette série, je compte approfondir ces sept points un par un, tranquillement. Comment traiter le reject inference, pourquoi tant de gens se trompent sur la calibration, pourquoi l’inférence causale est au cœur du processus de décision, comment valider pour survivre en production. On commence ensemble à partir du prochain épisode.
Cet article a été publié pour la première fois sur han-co.com et fait l’objet d’une série en coréen et en japonais. La version originale avec des schémas dessinés à la main et l’abonnement par e-mail sont disponibles ici → https://han-co.com/ko/blog/part0-finance-ds-7-differences
Aucun commentaire pour le moment.