Modélisation
Comparaison des trois modèles
Performances mesurées sur l'échantillon de test (61 503 observations, partition stratifiée 80/20).
Métriques sur l'échantillon de test
| Modèle | AUC-ROC | Accuracy | Precision | Recall | F1-score |
|---|---|---|---|---|---|
| Régression logistique | 0,7389 | 0,6798 | 0,1565 | 0,6757 | 0,2541 |
| Random Forest | 0,7384 | 0,7069 | 0,1631 | 0,6367 | 0,2596 |
| XGBoostBest | 0,7558 | 0,7266 | 0,1744 | 0,6389 | 0,2740 |
Aire sous la courbe — pouvoir discriminant
Courbes ROC superposées
Top 10 variables — modèle XGBoost
Importance globale SHAP
61 503 observations · seuil 0,5
Matrices de confusion (échantillon test)
Logit
VP
3 357
FN
1 611
FP
18 077
VN
38 458
Random Forest
VP
3 163
FN
1 805
FP
16 221
VN
40 314
XGBoost
VP
3 175
FN
1 793
FP
14 998
VN
41 537
Ajustement interactif du seuil
Arbitrage Precision / Recall — XGBoost
Un seuil bas privilégie la détection (recall) au prix de plus de faux positifs ; un seuil haut accroît la précision mais laisse passer plus de défauts.
Precision
40,0%
Recall
60,0%
F1-score
48,0%
Accuracy
75,0%