Méthodologie
Pipeline de traitement, choix des modèles, fondements théoriques de SHAP et métriques d'évaluation retenues.
Pipeline complet de traitement
- 01Sélection variables16 variables retenues parmi 122 selon la pertinence métier.
- 02NettoyageTraitement des anomalies (DAYS_EMPLOYED = 365 243), valeurs manquantes.
- 03Feature engineeringCréation de 4 ratios dérivés (CREDIT_INCOME, ANNUITY_INCOME, CREDIT_ANNUITY, AGE).
- 04Encodage one-hotVariables catégorielles : 87 → 112 colonnes.
- 05StandardisationZ-score sur les variables continues.
- 06Partition stratifiée80 % entraînement / 20 % test (246 008 / 61 503 obs).
- 07Gestion du déséquilibreclass_weight (logit/RF) et scale_pos_weight = 11,39 (XGBoost).
Présentation des trois modèles
P(Y=1 | X) = 1 / (1 + exp(−β₀ − Σ βᵢ Xᵢ))
Modèle de référence en credit scoring depuis Wiginton (1980). Les coefficients s'interprètent en odds ratio (OR = exp(β)).
Avantages : transparence totale, conformité réglementaire (Bâle III, AI Act), justification individuelle des refus.
SHAP — théorie et application
Les valeurs de Shapley, issues de la théorie des jeux coopératifs (Lloyd Shapley, 1953), distribuent équitablement la contribution marginale de chaque variable à la prédiction d'un modèle.
φᵢ(v) = Σ_S⊆N\{i} [ |S|! (|N|−|S|−1)! / |N|! ] · [v(S∪{i}) − v(S)]
Lundberg & Lee (2017) ont étendu cette formulation au machine learning (SHAP). TreeExplainer offre un calcul exact en temps polynomial pour les modèles arborés (XGBoost, RF), assurant les propriétés d'additivité, de consistance et de cohérence locale.
Cette explicabilité post-hoc satisfait les exigences du RGPD (article 22 — droit à explication) et de l'AI Act européen.