Visual and audio scene classification for detecting discrepancies in video: a baseline method and experimental protocol

Apostolidis, Konstantinos; Abesser, Jakob; Cuccovillo, Luca; Mezaris, Vasileios

Computer Science > Computer Vision and Pattern Recognition

arXiv:2405.00384 (cs)

[Submitted on 1 May 2024]

Title:Visual and audio scene classification for detecting discrepancies in video: a baseline method and experimental protocol

Authors:Konstantinos Apostolidis, Jakob Abesser, Luca Cuccovillo, Vasileios Mezaris

View PDF HTML (experimental)

Abstract:This paper presents a baseline approach and an experimental protocol for a specific content verification problem: detecting discrepancies between the audio and video modalities in multimedia content. We first design and optimize an audio-visual scene classifier, to compare with existing classification baselines that use both modalities. Then, by applying this classifier separately to the audio and the visual modality, we can detect scene-class inconsistencies between them. To facilitate further research and provide a common evaluation platform, we introduce an experimental protocol and a benchmark dataset simulating such inconsistencies. Our approach achieves state-of-the-art results in scene classification and promising outcomes in audio-visual discrepancies detection, highlighting its potential in content verification applications.

Comments:	Accepted for publication, 3rd ACM Int. Workshop on Multimedia AI against Disinformation (MAD'24) at ACM ICMR'24, June 10, 2024, Phuket, Thailand. This is the "accepted version"
Subjects:	Computer Vision and Pattern Recognition (cs.CV); Multimedia (cs.MM); Sound (cs.SD); Audio and Speech Processing (eess.AS)
Cite as:	arXiv:2405.00384 [cs.CV]
	(or arXiv:2405.00384v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2405.00384

Submission history

From: Vasileios Mezaris [view email]
[v1] Wed, 1 May 2024 08:30:58 UTC (512 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Visual and audio scene classification for detecting discrepancies in video: a baseline method and experimental protocol

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Visual and audio scene classification for detecting discrepancies in video: a baseline method and experimental protocol

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators