SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning

Wen, Cheng; Guo, Tingwei; Zhao, Shuaijiang; Zou, Wei; Li, Xiangang

Computer Science > Computation and Language

arXiv:2504.15900 (cs)

[Submitted on 22 Apr 2025 (v1), last revised 29 Apr 2025 (this version, v3)]

Title:SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning

Authors:Cheng Wen, Tingwei Guo, Shuaijiang Zhao, Wei Zou, Xiangang Li

View PDF

Abstract:Recent work shows that reinforcement learning(RL) can markedly sharpen the reasoning ability of large language models (LLMs) by prompting them to "think before answering." Yet whether and how these gains transfer to audio-language reasoning remains largely unexplored. We extend the Group-Relative Policy Optimization (GRPO) framework from DeepSeek-R1 to a Large Audio-Language Model (LALM), and construct a 32k sample multiple-choice corpus. Using a two-stage regimen supervised fine-tuning on structured and unstructured chains-of-thought, followed by curriculum-guided GRPO, we systematically compare implicit vs. explicit, and structured vs. free form reasoning under identical architectures. Our structured audio reasoning model, SARI (Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning), achieves a 16.35% improvement in average accuracy over the base model Qwen2-Audio-7B-Instruct. Furthermore, the variant built upon Qwen2.5-Omni reaches state-of-the-art performance of 67.08% on the MMAU test-mini benchmark. Ablation experiments show that on the base model we use: (i) SFT warm-up is important for stable RL training, (ii) structured chains yield more robust generalization than unstructured ones, and (iii) easy-to-hard curricula accelerate convergence and improve final performance. These findings demonstrate that explicit, structured reasoning and curriculum learning substantially enhances audio-language understanding.

Subjects:	Computation and Language (cs.CL)
Cite as:	arXiv:2504.15900 [cs.CL]
	(or arXiv:2504.15900v3 [cs.CL] for this version)
	https://doi.org/10.48550/arXiv.2504.15900

Submission history

From: Shuaijiang Zhao [view email]
[v1] Tue, 22 Apr 2025 13:41:26 UTC (841 KB)
[v2] Sun, 27 Apr 2025 10:27:50 UTC (841 KB)
[v3] Tue, 29 Apr 2025 02:51:19 UTC (841 KB)

Computer Science > Computation and Language

Title:SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computation and Language

Title:SARI: Structured Audio Reasoning via Curriculum-Guided Reinforcement Learning

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators