OTClean: Data Cleaning for Conditional Independence Violations using Optimal Transport

Pirhadi, Alireza; Moslemi, Mohammad Hossein; Cloninger, Alexander; Milani, Mostafa; Salimi, Babak

Computer Science > Machine Learning

arXiv:2403.02372 (cs)

[Submitted on 4 Mar 2024]

Title:OTClean: Data Cleaning for Conditional Independence Violations using Optimal Transport

Authors:Alireza Pirhadi, Mohammad Hossein Moslemi, Alexander Cloninger, Mostafa Milani, Babak Salimi

View PDF HTML (experimental)

Abstract:Ensuring Conditional Independence (CI) constraints is pivotal for the development of fair and trustworthy machine learning models. In this paper, we introduce \sys, a framework that harnesses optimal transport theory for data repair under CI constraints. Optimal transport theory provides a rigorous framework for measuring the discrepancy between probability distributions, thereby ensuring control over data utility. We formulate the data repair problem concerning CIs as a Quadratically Constrained Linear Program (QCLP) and propose an alternating method for its solution. However, this approach faces scalability issues due to the computational cost associated with computing optimal transport distances, such as the Wasserstein distance. To overcome these scalability challenges, we reframe our problem as a regularized optimization problem, enabling us to develop an iterative algorithm inspired by Sinkhorn's matrix scaling algorithm, which efficiently addresses high-dimensional and large-scale data. Through extensive experiments, we demonstrate the efficacy and efficiency of our proposed methods, showcasing their practical utility in real-world data cleaning and preprocessing tasks. Furthermore, we provide comparisons with traditional approaches, highlighting the superiority of our techniques in terms of preserving data utility while ensuring adherence to the desired CI constraints.

Subjects:	Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Databases (cs.DB)
Cite as:	arXiv:2403.02372 [cs.LG]
	(or arXiv:2403.02372v1 [cs.LG] for this version)
	https://doi.org/10.48550/arXiv.2403.02372

Submission history

From: Babak Salimi [view email]
[v1] Mon, 4 Mar 2024 18:23:55 UTC (1,698 KB)

Computer Science > Machine Learning

Title:OTClean: Data Cleaning for Conditional Independence Violations using Optimal Transport

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Machine Learning

Title:OTClean: Data Cleaning for Conditional Independence Violations using Optimal Transport

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators