FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving

Ye, Tengju; Jing, Wei; Hu, Chunyong; Huang, Shikun; Gao, Lingping; Li, Fangzhen; Wang, Jingke; Guo, Ke; Xiao, Wencong; Mao, Weibo; Zheng, Hang; Li, Kun; Chen, Junbo; Yu, Kaicheng

Computer Science > Computer Vision and Pattern Recognition

arXiv:2308.01006 (cs)

[Submitted on 2 Aug 2023 (v1), last revised 14 Aug 2023 (this version, v4)]

Title:FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving

Authors:Tengju Ye, Wei Jing, Chunyong Hu, Shikun Huang, Lingping Gao, Fangzhen Li, Jingke Wang, Ke Guo, Wencong Xiao, Weibo Mao, Hang Zheng, Kun Li, Junbo Chen, Kaicheng Yu

View PDF

Abstract:Building a multi-modality multi-task neural network toward accurate and robust performance is a de-facto standard in perception task of autonomous driving. However, leveraging such data from multiple sensors to jointly optimize the prediction and planning tasks remains largely unexplored. In this paper, we present FusionAD, to the best of our knowledge, the first unified framework that fuse the information from two most critical sensors, camera and LiDAR, goes beyond perception task. Concretely, we first build a transformer based multi-modality fusion network to effectively produce fusion based features. In constrast to camera-based end-to-end method UniAD, we then establish a fusion aided modality-aware prediction and status-aware planning modules, dubbed FMSPnP that take advantages of multi-modality features. We conduct extensive experiments on commonly used benchmark nuScenes dataset, our FusionAD achieves state-of-the-art performance and surpassing baselines on average 15% on perception tasks like detection and tracking, 10% on occupancy prediction accuracy, reducing prediction error from 0.708 to 0.389 in ADE score and reduces the collision rate from 0.31% to only 0.12%.

Subjects:	Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Robotics (cs.RO)
Cite as:	arXiv:2308.01006 [cs.CV]
	(or arXiv:2308.01006v4 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2308.01006

Submission history

From: Tengju Ye [view email]
[v1] Wed, 2 Aug 2023 08:29:44 UTC (9,806 KB)
[v2] Thu, 3 Aug 2023 03:10:46 UTC (9,806 KB)
[v3] Tue, 8 Aug 2023 06:45:25 UTC (9,806 KB)
[v4] Mon, 14 Aug 2023 08:28:32 UTC (9,807 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators