Machine Learning Evaluation Metric Discrepancies across Programming Languages and Their Components: Need for Standardization

Salmanpour, Mohammad R.; Alizadeh, Morteza; Mousavi, Ghazal; Sadeghi, Saba; Amiri, Sajad; Oveisi, Mehrdad; Rahmim, Arman; Hacihaliloglu, Ilker

Computer Science > Machine Learning

arXiv:2411.12032 (cs)

[Submitted on 18 Nov 2024 (v1), last revised 8 Mar 2025 (this version, v2)]

Title:Machine Learning Evaluation Metric Discrepancies across Programming Languages and Their Components: Need for Standardization

Authors:Mohammad R. Salmanpour, Morteza Alizadeh, Ghazal Mousavi, Saba Sadeghi, Sajad Amiri, Mehrdad Oveisi, Arman Rahmim, Ilker Hacihaliloglu

View PDF

Abstract:This study evaluates metrics for tasks such as classification, regression, clustering, correlation analysis, statistical tests, segmentation, and image-to-image (I2I) translation. Metrics were compared across Python libraries, R packages, and Matlab functions to assess their consistency and highlight discrepancies. The findings underscore the need for a unified roadmap to standardize metrics, ensuring reliable and reproducible ML evaluations across platforms. This study examined a wide range of evaluation metrics across various tasks and found only some to be consistent across platforms, such as (i) Accuracy, Balanced Accuracy, Cohens Kappa, F-beta Score, MCC, Geometric Mean, AUC, and Log Loss in binary classification; (ii) Accuracy, Cohens Kappa, and F-beta Score in multi-class classification; (iii) MAE, MSE, RMSE, MAPE, Explained Variance, Median AE, MSLE, and Huber in regression; (iv) Davies-Bouldin Index and Calinski-Harabasz Index in clustering; (v) Pearson, Spearman, Kendall's Tau, Mutual Information, Distance Correlation, Percbend, Shepherd, and Partial Correlation in correlation analysis; (vi) Paired t-test, Chi-Square Test, ANOVA, Kruskal-Wallis Test, Shapiro-Wilk Test, Welchs t-test, and Bartlett's test in statistical tests; (vii) Accuracy, Precision, and Recall in 2D segmentation; (viii) Accuracy in 3D segmentation; (ix) MAE, MSE, RMSE, and R-Squared in 2D-I2I translation; and (x) MAE, MSE, and RMSE in 3D-I2I translation. Given observation of discrepancies in a number of metrics (e.g. precision, recall and F1 score in binary classification, WCSS in clustering, multiple statistical tests, and IoU in segmentation, amongst multiple metrics), this study concludes that ML evaluation metrics require standardization and recommends that future research use consistent metrics for different tasks to effectively compare ML techniques and solutions.

Comments:	This paper is 12 pages with 1 table and 10 figures
Subjects:	Machine Learning (cs.LG); Software Engineering (cs.SE); Computational Physics (physics.comp-ph)
Cite as:	arXiv:2411.12032 [cs.LG]
	(or arXiv:2411.12032v2 [cs.LG] for this version)
	https://doi.org/10.48550/arXiv.2411.12032

Submission history

From: Mohammad R. Salmanpour [view email]
[v1] Mon, 18 Nov 2024 20:07:31 UTC (522 KB)
[v2] Sat, 8 Mar 2025 21:25:11 UTC (509 KB)

Computer Science > Machine Learning

Title:Machine Learning Evaluation Metric Discrepancies across Programming Languages and Their Components: Need for Standardization

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Machine Learning

Title:Machine Learning Evaluation Metric Discrepancies across Programming Languages and Their Components: Need for Standardization

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators