SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation

Qu, Leigang; Li, Haochuan; Wang, Wenjie; Liu, Xiang; Li, Juncheng; Nie, Liqiang; Chua, Tat-Seng

Computer Science > Computer Vision and Pattern Recognition

arXiv:2412.05818 (cs)

[Submitted on 8 Dec 2024 (v1), last revised 24 Mar 2025 (this version, v2)]

Title:SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation

Authors:Leigang Qu, Haochuan Li, Wenjie Wang, Xiang Liu, Juncheng Li, Liqiang Nie, Tat-Seng Chua

View PDF HTML (experimental)

Abstract:Large Multimodal Models (LMMs) have demonstrated impressive capabilities in multimodal understanding and generation, pushing forward advancements in text-to-image generation. However, achieving accurate text-image alignment for LMMs, particularly in compositional scenarios, remains challenging. Existing approaches, such as layout planning for multi-step generation and learning from human feedback or AI feedback, depend heavily on prompt engineering, costly human annotations, and continual upgrading, limiting flexibility and scalability. In this work, we introduce a model-agnostic iterative self-improvement framework (SILMM) that can enable LMMs to provide helpful and scalable self-feedback and optimize text-image alignment via Direct Preference Optimization (DPO). DPO can readily applied to LMMs that use discrete visual tokens as intermediate image representations; while it is less suitable for LMMs with continuous visual features, as obtaining generation probabilities is challenging. To adapt SILMM to LMMs with continuous features, we propose a diversity mechanism to obtain diverse representations and a kernel-based continuous DPO for alignment. Extensive experiments on three compositional text-to-image generation benchmarks validate the effectiveness and superiority of SILMM, showing improvements exceeding 30% on T2I-CompBench++ and around 20% on DPG-Bench.

Comments:	CVPR 2025 Camera-ready. Project page: this https URL
Subjects:	Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Machine Learning (cs.LG); Multimedia (cs.MM)
Cite as:	arXiv:2412.05818 [cs.CV]
	(or arXiv:2412.05818v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2412.05818

Submission history

From: Leigang Qu [view email]
[v1] Sun, 8 Dec 2024 05:28:08 UTC (8,076 KB)
[v2] Mon, 24 Mar 2025 23:22:02 UTC (8,077 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators