Domain Generalization using Action Sequences for Egocentric Action Recognition

Nasirimajd, Amirshayan; Plizzari, Chiara; Peirone, Simone Alberto; Ciccone, Marco; Averta, Giuseppe; Caputo, Barbara

Computer Science > Computer Vision and Pattern Recognition

arXiv:2506.17685 (cs)

[Submitted on 21 Jun 2025]

Title:Domain Generalization using Action Sequences for Egocentric Action Recognition

Authors:Amirshayan Nasirimajd, Chiara Plizzari, Simone Alberto Peirone, Marco Ciccone, Giuseppe Averta, Barbara Caputo

View PDF HTML (experimental)

Abstract:Recognizing human activities from visual inputs, particularly through a first-person viewpoint, is essential for enabling robots to replicate human behavior. Egocentric vision, characterized by cameras worn by observers, captures diverse changes in illumination, viewpoint, and environment. This variability leads to a notable drop in the performance of Egocentric Action Recognition models when tested in environments not seen during training. In this paper, we tackle these challenges by proposing a domain generalization approach for Egocentric Action Recognition. Our insight is that action sequences often reflect consistent user intent across visual domains. By leveraging action sequences, we aim to enhance the model's generalization ability across unseen environments. Our proposed method, named SeqDG, introduces a visual-text sequence reconstruction objective (SeqRec) that uses contextual cues from both text and visual inputs to reconstruct the central action of the sequence. Additionally, we enhance the model's robustness by training it on mixed sequences of actions from different domains (SeqMix). We validate SeqDG on the EGTEA and EPIC-KITCHENS-100 datasets. Results on EPIC-KITCHENS-100, show that SeqDG leads to +2.4% relative average improvement in cross-domain action recognition in unseen environments, and on EGTEA the model achieved +0.6% Top-1 accuracy over SOTA in intra-domain action recognition.

Comments:	Accepted at Pattern Recognition Letters. 9 pages including references. Code and Data: this https URL
Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2506.17685 [cs.CV]
	(or arXiv:2506.17685v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2506.17685

Submission history

From: Amirshayan Nasirimajd [view email]
[v1] Sat, 21 Jun 2025 11:33:08 UTC (2,916 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Domain Generalization using Action Sequences for Egocentric Action Recognition

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Domain Generalization using Action Sequences for Egocentric Action Recognition

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators