MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook

Xu, Peng; Xiong, Shengwu; Zhang, Jiajun; Chen, Yaxiong; Zhou, Bowen; Loy, Chen Change; Clifton, David A.; Lee, Kyoung Mu; Van Gool, Luc; He, Ruiming; Yao, Ruilin; Long, Xinwei; Huang, Jirui; Tian, Kai; Yang, Sa; Shao, Yihua; Feng, Jin; Zhong, Yue; Zhou, Jiakai; Tang, Cheng; Zou, Tianyu; Zhang, Yifang; Liang, Junming; Li, Guoyou; Wang, Zhaoxiang; Zhou, Qiang; Zhao, Yichen; Xiong, Shili; Nam, Hyeongjin; Lee, Jaerin; Chung, Jaeyoung; Park, JoonKyu; Oh, Junghun; Lee, Kanggeon; Lee, Wooseok; Ro, Juneyoung; Osman, Turghun; Hu, Can; Liao, Chaoyang; Chen, Cheng; Han, Chengcheng; Qiu, Chenhao; Peng, Chong; Xu, Cong; Li, Dailin; Wang, Feiyu; Gao, Feng; Zhu, Guibo; Tang, Guopeng; Lu, Haibo; Fang, Han; Qi, Han; Wu, Hanxiao; Cheng, Haobo; Sun, Hongbo; Chen, Hongyao; Hu, Huayong; Li, Hui; Ma, Jiaheng; Yu, Jiang; Wang, Jianing; Yang, Jie; He, Jing; Zhou, Jinglin; Li, Jingxuan; Kittler, Josef; Zheng, Lihao; Zhao, Linnan; Jia, Mengxi; Yan, Muyang; Thien, Nguyen Thanh; Luo, Pu; Li, Qi; Song, Shien; Dong, Shijie; Shao, Shuai; Li, Shutao; Xue, Taofeng; Xu, Tianyang; Gao, Tianyi; Li, Tingting; Zhang, Wei; Su, Weiyang; Dong, Xiaodong; Wu, Xiao-Jun; Zhou, Xiaopeng; Chen, Xin; Wei, Xin; You, Xinyi; Kang, Xudong; Zhou, Xujie; Liu, Xusheng; Wang, Yanan; Huang, Yanbin; Liu, Yang; Yang, Yang; Deng, Yanglin; Kang, Yashu; Yuan, Ye; Wen, Yi; Tian, Yicen; Tao, Yilin; Tang, Yin; Lin, Yipeng; Wang, Yiqing; Xi, Yiting; Yu, Yongkang; Li, Yumei; Qin, Yuxin; Chen, Yuying; Cen, Yuzhe; Zou, Zhaofan; Liu, Zhaohong; Shen, Zhehao; Du, Zhenglin; Li, Zhengyang; Huang, Zhenni; Shao, Zhenwei; Song, Zhilong; Feng, Zhiyong; Wang, Zhiyu; Yu, Zhou; Li, Ziang; Zhai, Zihan; Zhang, Zijian; Peng, Ziyang; Xiao, Ziyun; Li, Zongshu

Computer Science > Computer Vision and Pattern Recognition

arXiv:2509.14142 (cs)

[Submitted on 17 Sep 2025]

Title:MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook

Authors:Peng Xu, Shengwu Xiong, Jiajun Zhang, Yaxiong Chen, Bowen Zhou, Chen Change Loy, David A. Clifton, Kyoung Mu Lee, Luc Van Gool, Ruiming He, Ruilin Yao, Xinwei Long, Jirui Huang, Kai Tian, Sa Yang, Yihua Shao, Jin Feng, Yue Zhong, Jiakai Zhou, Cheng Tang, Tianyu Zou, Yifang Zhang, Junming Liang, Guoyou Li, Zhaoxiang Wang, Qiang Zhou, Yichen Zhao, Shili Xiong, Hyeongjin Nam, Jaerin Lee, Jaeyoung Chung, JoonKyu Park, Junghun Oh, Kanggeon Lee, Wooseok Lee, Juneyoung Ro, Turghun Osman, Can Hu, Chaoyang Liao, Cheng Chen, Chengcheng Han, Chenhao Qiu, Chong Peng, Cong Xu, Dailin Li, Feiyu Wang, Feng Gao, Guibo Zhu, Guopeng Tang, Haibo Lu, Han Fang, Han Qi, Hanxiao Wu, Haobo Cheng, Hongbo Sun, Hongyao Chen, Huayong Hu, Hui Li, Jiaheng Ma, Jiang Yu, Jianing Wang, Jie Yang, Jing He, Jinglin Zhou, Jingxuan Li, Josef Kittler, Lihao Zheng, Linnan Zhao, Mengxi Jia, Muyang Yan, Nguyen Thanh Thien, Pu Luo, Qi Li, Shien Song, Shijie Dong, Shuai Shao, Shutao Li, Taofeng Xue, Tianyang Xu, Tianyi Gao, Tingting Li, Wei Zhang, Weiyang Su, Xiaodong Dong, Xiao-Jun Wu, Xiaopeng Zhou, Xin Chen, Xin Wei, Xinyi You, Xudong Kang, Xujie Zhou, Xusheng Liu, Yanan Wang, Yanbin Huang, Yang Liu, Yang Yang, Yanglin Deng, Yashu Kang, Ye Yuan, Yi Wen et al. (28 additional authors not shown)

View PDF HTML (experimental)

Abstract:This paper reviews the MARS2 2025 Challenge on Multimodal Reasoning. We aim to bring together different approaches in multimodal machine learning and LLMs via a large benchmark. We hope it better allows researchers to follow the state-of-the-art in this very dynamic area. Meanwhile, a growing number of testbeds have boosted the evolution of general-purpose large language models. Thus, this year's MARS2 focuses on real-world and specialized scenarios to broaden the multimodal reasoning applications of MLLMs. Our organizing team released two tailored datasets Lens and AdsQA as test sets, which support general reasoning in 12 daily scenarios and domain-specific reasoning in advertisement videos, respectively. We evaluated 40+ baselines that include both generalist MLLMs and task-specific models, and opened up three competition tracks, i.e., Visual Grounding in Real-world Scenarios (VG-RS), Visual Question Answering with Spatial Awareness (VQA-SA), and Visual Reasoning in Creative Advertisement Videos (VR-Ads). Finally, 76 teams from the renowned academic and industrial institutions have registered and 40+ valid submissions (out of 1200+) have been included in our ranking lists. Our datasets, code sets (40+ baselines and 15+ participants' methods), and rankings are publicly available on the MARS2 workshop website and our GitHub organization page this https URL, where our updates and announcements of upcoming events will be continuously provided.

Comments:	ICCV 2025 MARS2 Workshop and Challenge "Multimodal Reasoning and Slow Thinking in the Large Model Era: Towards System 2 and Beyond''
Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2509.14142 [cs.CV]
	(or arXiv:2509.14142v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2509.14142

Submission history

From: Peng Xu [view email]
[v1] Wed, 17 Sep 2025 16:21:34 UTC (6,592 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:MARS2 2025 Challenge on Multimodal Reasoning: Datasets, Methods, Results, Discussion, and Outlook

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators