OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning

Wang, Shihao; Yu, Zhiding; Jiang, Xiaohui; Lan, Shiyi; Shi, Min; Chang, Nadine; Kautz, Jan; Li, Ying; Alvarez, Jose M.

Computer Science > Computer Vision and Pattern Recognition

arXiv:2504.04348 (cs)

This paper has been withdrawn by Xiaohui Jiang

[Submitted on 6 Apr 2025 (v1), last revised 16 Apr 2025 (this version, v2)]

Title:OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning

Authors:Shihao Wang, Zhiding Yu, Xiaohui Jiang, Shiyi Lan, Min Shi, Nadine Chang, Jan Kautz, Ying Li, Jose M. Alvarez

No PDF available, click to view other formats

Abstract:The advances in vision-language models (VLMs) have led to a growing interest in autonomous driving to leverage their strong reasoning capabilities. However, extending these capabilities from 2D to full 3D understanding is crucial for real-world applications. To address this challenge, we propose OmniDrive, a holistic vision-language dataset that aligns agent models with 3D driving tasks through counterfactual reasoning. This approach enhances decision-making by evaluating potential scenarios and their outcomes, similar to human drivers considering alternative actions. Our counterfactual-based synthetic data annotation process generates large-scale, high-quality datasets, providing denser supervision signals that bridge planning trajectories and language-based reasoning. Futher, we explore two advanced OmniDrive-Agent frameworks, namely Omni-L and Omni-Q, to assess the importance of vision-language alignment versus 3D perception, revealing critical insights into designing effective LLM-agents. Significant improvements on the DriveLM Q\&A benchmark and nuScenes open-loop planning demonstrate the effectiveness of our dataset and methods.

Comments:	Mistaken resubmission. The original version is at arXiv:2405.01533
Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2504.04348 [cs.CV]
	(or arXiv:2504.04348v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2504.04348

Submission history

From: Xiaohui Jiang [view email]
[v1] Sun, 6 Apr 2025 03:54:21 UTC (27,813 KB)
[v2] Wed, 16 Apr 2025 15:00:11 UTC (1 KB) (withdrawn)

Computer Science > Computer Vision and Pattern Recognition

Title:OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators