DCIM-AVSR : Efficient Audio-Visual Speech Recognition via Dual Conformer Interaction Module

Wang, Xinyu; Jiang, Haotian; Huang, Haolin; Fang, Yu; Xu, Mengjie; Wang, Qian

Electrical Engineering and Systems Science > Audio and Speech Processing

arXiv:2409.00481 (eess)

[Submitted on 31 Aug 2024 (v1), last revised 8 Jan 2025 (this version, v5)]

Title:DCIM-AVSR : Efficient Audio-Visual Speech Recognition via Dual Conformer Interaction Module

Authors:Xinyu Wang, Haotian Jiang, Haolin Huang, Yu Fang, Mengjie Xu, Qian Wang

View PDF HTML (experimental)

Abstract:Speech recognition is the technology that enables machines to interpret and process human speech, converting spoken language into text or commands. This technology is essential for applications such as virtual assistants, transcription services, and communication tools. The Audio-Visual Speech Recognition (AVSR) model enhances traditional speech recognition, particularly in noisy environments, by incorporating visual modalities like lip movements and facial expressions. While traditional AVSR models trained on large-scale datasets with numerous parameters can achieve remarkable accuracy, often surpassing human performance, they also come with high training costs and deployment challenges. To address these issues, we introduce an efficient AVSR model that reduces the number of parameters through the integration of a Dual Conformer Interaction Module (DCIM). In addition, we propose a pre-training method that further optimizes model performance by selectively updating parameters, leading to significant improvements in efficiency. Unlike conventional models that require the system to independently learn the hierarchical relationship between audio and visual modalities, our approach incorporates this distinction directly into the model architecture. This design enhances both efficiency and performance, resulting in a more practical and effective solution for AVSR tasks.

Comments:	Accepted to ICASSP 2025
Subjects:	Audio and Speech Processing (eess.AS); Sound (cs.SD)
Cite as:	arXiv:2409.00481 [eess.AS]
	(or arXiv:2409.00481v5 [eess.AS] for this version)
	https://doi.org/10.48550/arXiv.2409.00481

Submission history

From: Xinyu Wang [view email]
[v1] Sat, 31 Aug 2024 15:26:57 UTC (1,822 KB)
[v2] Wed, 11 Sep 2024 02:35:51 UTC (11,149 KB)
[v3] Fri, 29 Nov 2024 12:34:51 UTC (11,149 KB)
[v4] Sat, 21 Dec 2024 03:38:41 UTC (11,149 KB)
[v5] Wed, 8 Jan 2025 13:42:18 UTC (11,149 KB)

Electrical Engineering and Systems Science > Audio and Speech Processing

Title:DCIM-AVSR : Efficient Audio-Visual Speech Recognition via Dual Conformer Interaction Module

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Electrical Engineering and Systems Science > Audio and Speech Processing

Title:DCIM-AVSR : Efficient Audio-Visual Speech Recognition via Dual Conformer Interaction Module

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators