Modélisation

Comparaison des trois modèles

Performances mesurées sur l'échantillon de test (61 503 observations, partition stratifiée 80/20).

Métriques sur l'échantillon de test

Modèle	AUC-ROC	Accuracy	Precision	Recall	F1-score
Régression logistique	0,7389	0,6798	0,1565	0,6757	0,2541
Random Forest	0,7384	0,7069	0,1631	0,6367	0,2596
XGBoostBest	0,7558	0,7266	0,1744	0,6389	0,2740

Aire sous la courbe — pouvoir discriminant

Courbes ROC superposées

Top 10 variables — modèle XGBoost

Importance globale SHAP

61 503 observations · seuil 0,5

Matrices de confusion (échantillon test)

Logit

3 357

1 611

18 077

38 458

Random Forest

3 163

1 805

16 221

40 314

XGBoost

3 175

1 793

14 998

41 537

Ajustement interactif du seuil

Arbitrage Precision / Recall — XGBoost

Seuil de classification : 0.50

Un seuil bas privilégie la détection (recall) au prix de plus de faux positifs ; un seuil haut accroît la précision mais laisse passer plus de défauts.

Precision

40,0%

Recall

60,0%

F1-score

48,0%

Accuracy

75,0%