Sami-CrediScore
Risk Analytics Platform
Cadre théorique

Méthodologie

Pipeline de traitement, choix des modèles, fondements théoriques de SHAP et métriques d'évaluation retenues.

Pipeline complet de traitement

  1. 01
    Sélection variables
    16 variables retenues parmi 122 selon la pertinence métier.
  2. 02
    Nettoyage
    Traitement des anomalies (DAYS_EMPLOYED = 365 243), valeurs manquantes.
  3. 03
    Feature engineering
    Création de 4 ratios dérivés (CREDIT_INCOME, ANNUITY_INCOME, CREDIT_ANNUITY, AGE).
  4. 04
    Encodage one-hot
    Variables catégorielles : 87 → 112 colonnes.
  5. 05
    Standardisation
    Z-score sur les variables continues.
  6. 06
    Partition stratifiée
    80 % entraînement / 20 % test (246 008 / 61 503 obs).
  7. 07
    Gestion du déséquilibre
    class_weight (logit/RF) et scale_pos_weight = 11,39 (XGBoost).

Présentation des trois modèles

P(Y=1 | X) = 1 / (1 + exp(−β₀ − Σ βᵢ Xᵢ))

Modèle de référence en credit scoring depuis Wiginton (1980). Les coefficients s'interprètent en odds ratio (OR = exp(β)).

Avantages : transparence totale, conformité réglementaire (Bâle III, AI Act), justification individuelle des refus.

SHAP — théorie et application

Les valeurs de Shapley, issues de la théorie des jeux coopératifs (Lloyd Shapley, 1953), distribuent équitablement la contribution marginale de chaque variable à la prédiction d'un modèle.

φᵢ(v) = Σ_S⊆N\{i} [ |S|! (|N|−|S|−1)! / |N|! ] · [v(S∪{i}) − v(S)]

Lundberg & Lee (2017) ont étendu cette formulation au machine learning (SHAP). TreeExplainer offre un calcul exact en temps polynomial pour les modèles arborés (XGBoost, RF), assurant les propriétés d'additivité, de consistance et de cohérence locale.

Cette explicabilité post-hoc satisfait les exigences du RGPD (article 22 — droit à explication) et de l'AI Act européen.

Métriques d'évaluation

AUC-ROC
Probabilité qu'un défaut tiré au hasard reçoive un score plus élevé qu'un non-défaut. Métrique privilégiée car indépendante du seuil et du déséquilibre des classes.
Accuracy
Part des prédictions correctes. Trompeuse en présence d'un fort déséquilibre (8 % de défauts).
Precision
Part des positifs prédits qui sont effectivement défaillants. Mesure le coût des faux refus.
Recall (sensibilité)
Part des défauts effectivement identifiés. Critique pour minimiser les pertes financières.
F1-score
Moyenne harmonique précision/recall — arbitrage équilibré.
Coût FP vs FN
Un faux négatif (défaut non détecté) coûte 5 à 10 fois plus qu'un faux positif (refus injustifié) en credit scoring.