Cadre théorique

Méthodologie

Pipeline de traitement, choix des modèles, fondements théoriques de SHAP et métriques d'évaluation retenues.

Pipeline complet de traitement

01
Sélection variables
16 variables retenues parmi 122 selon la pertinence métier.
02
Nettoyage
Traitement des anomalies (DAYS_EMPLOYED = 365 243), valeurs manquantes.
03
Feature engineering
Création de 4 ratios dérivés (CREDIT_INCOME, ANNUITY_INCOME, CREDIT_ANNUITY, AGE).
04
Encodage one-hot
Variables catégorielles : 87 → 112 colonnes.
05
Standardisation
Z-score sur les variables continues.
06
Partition stratifiée
80 % entraînement / 20 % test (246 008 / 61 503 obs).
07
Gestion du déséquilibre
class_weight (logit/RF) et scale_pos_weight = 11,39 (XGBoost).

Présentation des trois modèles

P(Y=1 | X) = 1 / (1 + exp(−β₀ − Σ βᵢ Xᵢ))

Modèle de référence en credit scoring depuis Wiginton (1980). Les coefficients s'interprètent en odds ratio (OR = exp(β)).

Avantages : transparence totale, conformité réglementaire (Bâle III, AI Act), justification individuelle des refus.

SHAP — théorie et application

Les valeurs de Shapley, issues de la théorie des jeux coopératifs (Lloyd Shapley, 1953), distribuent équitablement la contribution marginale de chaque variable à la prédiction d'un modèle.

φᵢ(v) = Σ_S⊆N\{i} [ |S|! (|N|−|S|−1)! / |N|! ] · [v(S∪{i}) − v(S)]

Lundberg & Lee (2017) ont étendu cette formulation au machine learning (SHAP). TreeExplainer offre un calcul exact en temps polynomial pour les modèles arborés (XGBoost, RF), assurant les propriétés d'additivité, de consistance et de cohérence locale.

Cette explicabilité post-hoc satisfait les exigences du RGPD (article 22 — droit à explication) et de l'AI Act européen.

Métriques d'évaluation

AUC-ROC

Probabilité qu'un défaut tiré au hasard reçoive un score plus élevé qu'un non-défaut. Métrique privilégiée car indépendante du seuil et du déséquilibre des classes.

Accuracy

Part des prédictions correctes. Trompeuse en présence d'un fort déséquilibre (8 % de défauts).

Precision

Part des positifs prédits qui sont effectivement défaillants. Mesure le coût des faux refus.

Recall (sensibilité)

Part des défauts effectivement identifiés. Critique pour minimiser les pertes financières.

F1-score

Moyenne harmonique précision/recall — arbitrage équilibré.

Coût FP vs FN

Un faux négatif (défaut non détecté) coûte 5 à 10 fois plus qu'un faux positif (refus injustifié) en credit scoring.