Predicting class-imbalanced business risk using resampling, regularization, and model ensembling algorithms

Wang, Yan; Ni, Xuelei Sherry

Statistics > Machine Learning

arXiv:1903.05535 (stat)

[Submitted on 13 Mar 2019]

Title:Predicting class-imbalanced business risk using resampling, regularization, and model ensembling algorithms

Authors:Yan Wang, Xuelei Sherry Ni

View PDF

Abstract:We aim at developing and improving the imbalanced business risk modeling via jointly using proper evaluation criteria, resampling, cross-validation, classifier regularization, and ensembling techniques. Area Under the Receiver Operating Characteristic Curve (AUC of ROC) is used for model comparison based on 10-fold cross validation. Two undersampling strategies including random undersampling (RUS) and cluster centroid undersampling (CCUS), as well as two oversampling methods including random oversampling (ROS) and Synthetic Minority Oversampling Technique (SMOTE), are applied. Three highly interpretable classifiers, including logistic regression without regularization (LR), L1-regularized LR (L1LR), and decision tree (DT) are implemented. Two ensembling techniques, including Bagging and Boosting, are applied on the DT classifier for further model improvement. The results show that, Boosting on DT by using the oversampled data containing 50% positives via SMOTE is the optimal model and it can achieve AUC, recall, and F1 score valued 0.8633, 0.9260, and 0.8907, respectively.

Subjects:	Machine Learning (stat.ML); Machine Learning (cs.LG)
Cite as:	arXiv:1903.05535 [stat.ML]
	(or arXiv:1903.05535v1 [stat.ML] for this version)
	https://doi.org/10.48550/arXiv.1903.05535
Journal reference:	International Journal of Managing Information Technology (IJIMIT) Vol. 11, No. 1, Februray 2019

Submission history

From: Yan Wang [view email]
[v1] Wed, 13 Mar 2019 15:07:35 UTC (5,967 KB)

Statistics > Machine Learning

Title:Predicting class-imbalanced business risk using resampling, regularization, and model ensembling algorithms

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Statistics > Machine Learning

Title:Predicting class-imbalanced business risk using resampling, regularization, and model ensembling algorithms

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators