Instruction-Guided Editing Controls for Images and Multimedia: A Survey in LLM era

Nguyen, Thanh Tam; Ren, Zhao; Pham, Trinh; Huynh, Thanh Trung; Nguyen, Phi Le; Yin, Hongzhi; Nguyen, Quoc Viet Hung

Computer Science > Computer Vision and Pattern Recognition

arXiv:2411.09955 (cs)

[Submitted on 15 Nov 2024 (v1), last revised 21 Nov 2024 (this version, v2)]

Title:Instruction-Guided Editing Controls for Images and Multimedia: A Survey in LLM era

Authors:Thanh Tam Nguyen, Zhao Ren, Trinh Pham, Thanh Trung Huynh, Phi Le Nguyen, Hongzhi Yin, Quoc Viet Hung Nguyen

View PDF HTML (experimental)

Abstract:The rapid advancement of large language models (LLMs) and multimodal learning has transformed digital content creation and manipulation. Traditional visual editing tools require significant expertise, limiting accessibility. Recent strides in instruction-based editing have enabled intuitive interaction with visual content, using natural language as a bridge between user intent and complex editing operations. This survey provides an overview of these techniques, focusing on how LLMs and multimodal models empower users to achieve precise visual modifications without deep technical knowledge. By synthesizing over 100 publications, we explore methods from generative adversarial networks to diffusion models, examining multimodal integration for fine-grained content control. We discuss practical applications across domains such as fashion, 3D scene manipulation, and video synthesis, highlighting increased accessibility and alignment with human intuition. Our survey compares existing literature, emphasizing LLM-empowered editing, and identifies key challenges to stimulate further research. We aim to democratize powerful visual editing across various industries, from entertainment to education. Interested readers are encouraged to access our repository at this https URL.

Comments:	Fixed a serious error in author information
Subjects:	Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Human-Computer Interaction (cs.HC); Machine Learning (cs.LG); Multimedia (cs.MM)
Cite as:	arXiv:2411.09955 [cs.CV]
	(or arXiv:2411.09955v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2411.09955

Submission history

From: Thanh Tam Nguyen [view email]
[v1] Fri, 15 Nov 2024 05:18:15 UTC (1,074 KB)
[v2] Thu, 21 Nov 2024 05:28:10 UTC (1,074 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Instruction-Guided Editing Controls for Images and Multimedia: A Survey in LLM era

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Instruction-Guided Editing Controls for Images and Multimedia: A Survey in LLM era

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators