Augmenter le plafond fait-il augmenter les défauts ? Une vérification à partir de trois jeux de données publics

(han-co.com)

1 points par hanco1104 5 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Original : han-co.com · Code et notebooks (coréen·japonais) : GitHub

Si on augmente le plafond d’une carte de crédit, la probabilité que cette personne fasse défaut augmente-t-elle ou diminue-t-elle ? Intuitivement, on aurait tendance à penser qu’elle augmente, puisqu’il devient possible d’emprunter davantage. Pourtant, quand on ouvre les données, on observe l’inverse. Ce texte raconte comment résoudre ce paradoxe par le debiasing, le vérifier avec trois jeux de données publics, et aboutir à la fin à une conclusion inattendue.

Dans la partie 0, nous avons parlé du biais de sélection. Cet article présente un cas pratique où ce biais rencontre de front l’inférence causale. L’inférence causale elle-même sera traitée plus en profondeur dans une série d’introduction, mais ici nous montrons en avant-première comment elle fonctionne en pratique. Le code et les données utilisés sont tous publics.

1. Des données à l’opposé de l’intuition

Commençons par les données taïwanaises sur les cartes de crédit. Il s’agit d’un jeu de données public portant sur 30 000 clients de cartes en 2005 à Taïwan, avec pour chacun le plafond, le montant facturé (solde), et le fait d’avoir été en retard de paiement le mois suivant (jeu public UCI). C’est un point de départ intéressant, car il est rare de disposer d’un jeu public combinant plafond, solde et défaut. Traçons ici le taux de défaut réel par tranche de plafond.

[IMG] Taux de défaut par tranche de plafond. Plus le plafond est élevé, plus le taux de défaut est faible

Le taux de défaut est de 35,9 % pour les 10 % de plafonds les plus faibles, contre 11,9 % pour les 10 % les plus élevés. Plus le plafond est élevé, plus le taux de défaut baisse de façon régulière (corrélation −0,15).

Le groupe ayant reçu un plafond presque 20 fois plus élevé ne génère qu’environ un tiers des défauts. Cela veut-il dire qu’on peut augmenter les plafonds sans crainte ? Bien sûr que non. Il y a ici un piège.

2. Le coupable : le biais de sélection

Le plafond n’est pas attribué au hasard. Suivant les modèles ou règles existants, un plafond élevé est accordé dès le départ aux personnes jugées les plus solvables. Ainsi, « avoir un plafond élevé » est aussi un signal de « personne qui remboursera bien à l’origine ». La relation négative entre plafond et défaut n’est donc pas l’effet du plafond lui-même, mais une illusion produite par la solvabilité cachée derrière le plafond. C’est l’un des cas les plus explicites de biais de sélection évoqués dans la partie 0.

Si l’on entraîne un modèle directement sur ces données, il apprend que « plafond élevé = sûr ». Si l’on simule ensuite « que se passe-t-il si on augmente le plafond ? », ce modèle répondra que les défauts diminuent. Utiliser ce résultat tel quel pour une décision de politique de risque serait dangereux.

3. La solution : transformer le plafond en « résidu »

L’idée centrale est simple. Si l’on compare des personnes ayant la même solvabilité mais des plafonds différents, on peut observer l’effet pur du plafond. Comme un appariement parfait est impossible, on procède autrement.

À partir des variables de solvabilité (X), on prédit pour chacun son « plafond attendu » (imitation du mécanisme d’attribution existant).
La différence entre le plafond réel et le plafond attendu est le résidu de plafond (rL). C’est la variation de plafond non expliquée par la solvabilité, donc produite par la politique ou l’aléa.
Le solde et le défaut sont eux aussi transformés en résidus de la même manière.
On construit ensuite une chaîne allant du résidu de plafond au résidu de solde, puis au défaut (chemin plafond→solde→défaut).
Comme le défaut vaut 0 ou 1, on corrige la différence dans l’espace logit, puis on ajoute cette correction à la probabilité de défaut prédite au départ pour obtenir la valeur finale.

Deux précautions s’imposent. Premièrement, pour éviter la fuite de données, les résidus doivent impérativement être construits par cross-fitting. Si le modèle se prédit lui-même, les résidus deviennent artificiellement trop petits. Deuxièmement, plus l’attribution des plafonds est cohérente, plus les personnes ayant un grand résidu deviennent rares. On donne donc davantage de poids à ces rares échantillons de « quasi-expérience naturelle » (personnes avec grands résidus).

Cette structure est la même que celle du Double Machine Learning (DML) en inférence causale. On peut le résumer ainsi : on prédit séparément le traitement (ici le plafond) et le résultat (le défaut) à partir des variables de confusion (la solvabilité) grâce au machine learning, puis on estime l’effet à partir de la relation entre les résidus restants. L’idée clé est de laisser le machine learning absorber souplement la confusion, tout en empêchant que les biais de ce modèle ne contaminent l’estimation de l’effet, grâce à la séparation par cross-fitting. En pratique, il s’agit d’enlever du traitement « plafond » le facteur de confusion qu’est la solvabilité.

Avant d’aller plus loin, signalons une limite. Les variables de solvabilité que nous contrôlons ne sont que des proxys des vrais critères d’attribution du plafond (revenu, score de crédit externe, etc.). Le debiasing réduit donc le biais ; il ne l’élimine pas complètement. Plus les variables de contrôle sont pauvres, plus la composante négative qui reste après correction peut encore contenir du biais non retiré.

4. Vérification 1, cartes de crédit taïwanaises : le biais disparaît, mais l’effet aussi presque entièrement

Après application du debiasing, le paradoxe s’est résolu. Environ 70 % de la corrélation apparente de −0,15 entre plafond et défaut provenait du biais de sélection ; une fois celui-ci retiré, l’effet direct résiduel n’était plus qu’un faible effet négatif (−0,05). C’est donc l’inverse de l’hypothèse (« plafond↑→défaut↑ »).

Où tester l’hypothèse alors ? Avec un contrefactuel : on modifie le plafond de tout le monde de 0,5× à 2×, puis on trace le taux de défaut prédit.

[IMG] Contrefactuel. Taux de défaut prédit quand on augmente le plafond

En rouge (naive), le paradoxe « plafond↑→défaut↓ » ressort tel quel. La chaîne via le solde (bleu) devient presque plate. Les chaînes du taux d’utilisation et de l’effet direct (violet, vert) conservent un faible effet négatif.

Une analyse plus détaillée montre les points suivants.

Le lien plafond→solde est positif, mais le taux de transmission n’est que de 5,7 %. Autrement dit, quand le plafond augmente de 1, le solde n’augmente que de 0,057. Dans un prêt amortissable entièrement tiré, cette valeur serait proche de 100 %. Comparé à cela, un plafond revolving est très peu utilisé, donc se transforme mal en charge réelle (sticky).
Le vrai signal de charge n’était pas le solde, mais le taux d’utilisation (solde/plafond). Et quand le plafond augmente, ce taux d’utilisation baisse au contraire fortement (−0,39, plus de marge disponible).
Si l’on isole le solde et qu’on l’estime proprement de façon linéaire, le lien solde→défaut est bien positif et significatif (p=0.001), ce qui valide l’hypothèse. Mais son ampleur reste extrêmement faible.

Cette partie livre aussi une leçon méthodologique. Si l’on utilise un GBM flexible sur une étape résiduelle où le signal est faible, on surapprend. L’AUC sur train monte, mais l’AUC sur test tombe même sous celle du modèle de base, et l’écart train/test atteint 0,047 contre 0,008 pour le modèle de base, soit presque six fois plus. À l’inverse, un second étage linéaire fondé uniquement sur les résidus présente un écart de 0,009, donc quasi nul, et restaure proprement l’effet réel. Les faibles signaux causaux se prêtent donc mieux à des modèles linéaires ou régularisés.

5. Un autre piège : une fenêtre d’observation trop courte

Dans ce jeu de données, le défaut correspond à un retard de « 1 mois suivant ». En pratique, les modèles de pertes de crédit regardent plutôt à 12 mois. Sur une fenêtre courte, un autre biais important entre en jeu : le report (postponement). Les personnes qui disposent encore d’une marge de plafond peuvent tenir un mois de plus grâce à cette réserve, ce qui repousse le défaut en dehors de la fenêtre d’observation. Le défaut n’a pas diminué ; il a simplement été différé, mais il est enregistré comme « sécurité ».

Ce biais est distinct du debiasing au sens du retrait des facteurs de confusion ; il relève plutôt de la survie ou de la censure. Nous l’avons vérifié en allongeant la fenêtre d’observation de 1 à 5 mois.

[IMG] Effet debiaisé du plafond quand on allonge la fenêtre d’observation

Même quand la fenêtre s’allonge, le signe négatif (−) ne se renverse pas en positif (+) : de −0,06 à 1 mois à −0,13 à 5 mois. Mais cette expérience se brouille à mesure que la fenêtre s’allonge, car le contrôle de la solvabilité devient plus faible, et 5 mois reste très loin de 12 mois. Conclusion : avec UCI (1 mois), on ne peut pas valider correctement un problème à 12 mois.

Il fallait donc de vraies données de long terme.

6. Vérification 2, Lending Club : long terme et crédit « tiré »

Lending Club est une plateforme américaine de prêts P2P. Nous utilisons 230 000 prêts émis entre 2007 et 2013 et déjà arrivés à échéance. Comme ils sont clos, on connaît leur issue finale : remboursement complet ou charge-off. En appliquant le même debiasing, une distinction décisive apparaît.

[IMG] Lending Club. Crédit tiré et plafond revolving

loan_amnt (crédit tiré, vert) : même après debiasing, la relation crédit↑→défaut↑ se vérifie clairement (p<0.0001). Elle augmente de manière cohérente sur plusieurs grades de risque, et la suppression du biais renforce même l’effet. L’hypothèse est donc validée.
total_rev_hi_lim (plafond revolving inutilisé, violet) : même à long terme, l’effet reste quasiment nul. C’est la même conclusion que pour le plafond dans UCI.

L’essence de la différence n’était donc pas la fenêtre d’observation, mais le fait qu’il s’agisse d’un « crédit tiré » ou d’un « plafond inutilisé ». Un prêt amortissable est entièrement tiré et devient immédiatement une charge à 100 %, alors qu’un plafond revolving n’est pas une charge tant qu’il n’est pas utilisé : ce n’est qu’une marge disponible (headroom). Le pont entre les deux est le taux de transmission (plafond→solde), et dans UCI il n’était que de 5,7 %, d’où la faiblesse de l’effet du plafond.

7. Vérification 3, cartes Home Credit : la définition de la perte inverse le signe

Home Credit est un jeu de données rendu public via une compétition Kaggle, contenant deux types de données : un panel mensuel de cartes de crédit et des demandes de prêts (à tempérament). Nous avons d’abord voulu trancher avec le panel cartes, c’est-à-dire des dizaines de mois de suivi du plafond réel, du solde et des retards de paiement sur un même produit revolving. Mais le résultat s’est encore inversé. Cette fois, c’était un avertissement.

En regardant environ 16 000 cartes actives réellement utilisées, on observe que plus le taux d’utilisation est élevé, plus le défaut est faible — exactement l’inverse d’UCI. Pourquoi ?

[IMG] UCI et Home Credit. Le signe s’inverse entre taux d’utilisation et défaut

À gauche, dans UCI, plus le taux d’utilisation est élevé, plus le taux de défaut augmente (vraie charge). À droite, dans Home Credit, le défaut est concentré à environ 14 % uniquement dans le quantile de taux d’utilisation le plus bas (solde presque nul), tandis que les autres quantiles sont autour de 0,1 %.

La cause était claire. Dans Home Credit, le « défaut (SK_DPD≥90) » ne capturait pas une charge de crédit, mais des comptes dormants laissés avec un petit solde et tombés en retard. Pour les personnes qui utilisent réellement leur carte, le défaut est pratiquement nul. Autrement dit, si la définition du défaut (outcome) ne mesure pas une « perte de crédit » mais de la « négligence », même un debiasing bien fait peut renverser complètement le signe.

8. Vérification 4, prêts principaux Home Credit : le paradoxe finit enfin par s’inverser

Jusqu’ici, nous avions tenté le debiasing, mais nous n’avions trouvé aucun jeu de données où le paradoxe brut, négatif (−), se renversait en positif (+) après correction. Or il y avait un jeu de données juste à côté qui remplissait les conditions : les prêts de demande du même Home Credit (non pas la carte, mais le prêt principal ; taux de défaut de 8 %, 300 000 observations). Il s’agit d’un prêt amortissable entièrement tiré, avec un défaut correspondant à une vraie perte de crédit. Cette fois, nous contrôlons aussi à la fois le score de crédit externe (EXT_SOURCE) et le revenu.

[IMG] Prêt principal Home Credit. Le debiasing inverse le paradoxe

À gauche (raw), plus le crédit est important, plus le défaut est faible : un paradoxe (les quatre variables sont négatives). À droite (debiasing), une fois la solvabilité retirée, le signe devient positif (+).

Variable	Corrélation brute	Coefficient après debiasing	Verdict
Montant du prêt	−0,030	+0,018	inversion
Mensualité de remboursement	−0,013	+0,059 (`p≈10⁻²⁰`)	inversion (la plus forte)
Prêt rapporté au revenu	−0,008	+0,046	inversion
Prix du bien acheté	−0,040	−0,010	pas d’inversion

Les coefficients du tableau sont des coefficients logit appliqués à des résidus standardisés ; leur taille absolue reste donc faible. Une mensualité à +0,059 signifie qu’une hausse d’un écart-type augmente les odds de défaut d’environ 6 %. Avec 300 000 observations, la p-value devient extrêmement petite, mais cela ne veut pas dire « l’effet est grand » ; cela signifie seulement que « le signe positif (+) est très solide ». L’argument de cet article porte non pas sur l’ampleur, mais sur la direction : le renversement du signe, de négatif à positif.

Fait intéressant, seul le prix du bien (AMT_GOODS_PRICE) ne s’inverse pas. La charge à rembourser vient du montant emprunté et de la mensualité, pas du prix du bien lui-même ; cela correspond parfaitement à la théorie.

Pourquoi l’inversion se produit-elle ici, mais pas dans UCI ni dans les plafonds revolving de Lending Club ? Deux conditions doivent être réunies simultanément. Premièrement, il faut un crédit tiré (une charge réelle entièrement empruntée), de sorte que l’effet réel soit positif (+). Deuxièmement, il faut un biais de sélection fort (les gros prêts vont aux meilleurs clients), de sorte que le signal brut soit négatif (−). Le prêt principal remplit ces deux conditions. C’est pourquoi les données brutes sont négatives sous l’effet du biais de sélection, et le debiasing révèle ensuite le véritable effet positif de la charge.

9. Synthèse : quand le paradoxe s’inverse-t-il ?

Type de crédit	Relation brute plafond-défaillance	Après debiasing	Cas
Plafond revolving inutilisé	négative (paradoxe)	presque 0	UCI, LC, cartes HC
Crédit tiré, faible sélection	positive (pas de paradoxe)	positive	montant de prêt LC
Crédit tiré, forte sélection	négative (paradoxe)	positive (inversion)	prêt principal HC

Si l’on traverse les trois jeux de données, il reste deux constats.

« plafond↑→défaut↑ » n’est pas une loi universelle. Un plafond inutilisé n’est pas une charge tant qu’il n’est pas utilisé, donc son effet est proche de zéro ; et le signe du taux d’utilisation comme celui du solde dépend du portefeuille et de la définition de la perte.
En revanche, le paradoxe peut réellement s’inverser quand les conditions sont réunies. Le debiasing enlève le faux négatif (−) et restaure le vrai positif (+). Mais cela ne vaut que pour les formes de crédit qui représentent une charge réelle tirée.

10. Donc, en pratique

Avant de transposer ces résultats à un contexte opérationnel, je voudrais insister sur deux points.

Le premier concerne les limites. Les variables de solvabilité contrôlées par le debiasing ne sont que des proxys des véritables critères d’attribution du plafond ; il ne faut donc pas conclure que l’effet résiduel est un « effet causal pur ». C’est particulièrement vrai pour les jeux de données qui ne disposent ni de revenu ni de score externe et où il est difficile de reconstituer la vraie solvabilité. Par ailleurs, cet article traite de la probabilité de défaut (PD), alors qu’en pratique le taux de perte est souvent défini à partir du montant de perte. Or ce montant de perte est mécaniquement lié au plafond (plafond↑→exposition↑→montant de perte↑), si bien que, même avec les mêmes données, le signe peut apparaître positif (+). Le choix de l’outcome change donc la conclusion.

Il faut donc distinguer la méthode et la conclusion.

La méthode (debiasing) est valable et transférable. Lorsqu’un véritable effet positif (+) existe (comme pour le crédit tiré de Lending Club), la méthode le restaure proprement. Si d’autres données produisent un signe négatif (−), ce n’est pas un échec de la méthode, mais le reflet fidèle du fait que « ce type de crédit n’augmente pas, à l’origine, le défaut ».
En revanche, la conclusion sur la direction n’est pas transférable. À partir de données publiques, on ne peut pas affirmer que « dans tous les portefeuilles, augmenter le plafond augmente le défaut ».
Dans des données métier, il faut impérativement vérifier deux choses. Premièrement, le taux de transmission (dBalance/dLimit) : dans quelle mesure une hausse de plafond se transforme-t-elle réellement en charge tirée ? Deuxièmement, la définition de la perte : la perte à 12 mois capture-t-elle une vraie perte de crédit, ou seulement de la négligence / de petits retards ?

Ces deux éléments déterminent le signe de l’effet du plafond. Le debiasing n’est qu’un point de départ ; la réponse se trouve dans chaque portefeuille concret.

Annexe. Données et reproductibilité

UCI « Default of Credit Card Clients » (Taïwan, 30 000 cas, retard à 1 mois)
Prêts Lending Club arrivés à échéance entre 2007 et 2013 (230 000 cas, charge-off)
Panel cartes credit_card_balance de Home Credit et prêts principaux application_train (300 000 cas, défaut 8 %)
Méthode : résidualisation par cross-fitting K-fold, calibration isotonic, pondération des résidus, second étage linéaire (DML). Python (pandas, scikit-learn, lightgbm, statsmodels).
Code et notebooks (coréen·japonais) : github.com/HangilKim11/blog-research

Tous les chiffres et graphiques de cet article peuvent être reproduits à partir de données publiques. Les conclusions du texte portent sur ces données publiques ; pour des données métier, il faut vérifier directement les deux points ci-dessus afin d’établir le signe.

Cet article a d’abord été publié sur han-co.com, et mis en ligne en coréen et en japonais. Original et abonnement e-mail → https://han-co.com/ko/blog/credit-limit-debiasing