Collaborative Text-to-Image Generation via Multi-Agent Reinforcement Learning and Semantic Fusion

Shi, Jiabao; Qi, Minfeng; Zhang, Lefeng; Wang, Di; Zhao, Yingjie; Li, Ziying; Xing, Yalong; Li, Ningran

Computer Science > Artificial Intelligence

arXiv:2510.10633 (cs)

[Submitted on 12 Oct 2025]

Title:Collaborative Text-to-Image Generation via Multi-Agent Reinforcement Learning and Semantic Fusion

Authors:Jiabao Shi, Minfeng Qi, Lefeng Zhang, Di Wang, Yingjie Zhao, Ziying Li, Yalong Xing, Ningran Li

View PDF HTML (experimental)

Abstract:Multimodal text-to-image generation remains constrained by the difficulty of maintaining semantic alignment and professional-level detail across diverse visual domains. We propose a multi-agent reinforcement learning framework that coordinates domain-specialized agents (e.g., focused on architecture, portraiture, and landscape imagery) within two coupled subsystems: a text enhancement module and an image generation module, each augmented with multimodal integration components. Agents are trained using Proximal Policy Optimization (PPO) under a composite reward function that balances semantic similarity, linguistic visual quality, and content diversity. Cross-modal alignment is enforced through contrastive learning, bidirectional attention, and iterative feedback between text and image. Across six experimental settings, our system significantly enriches generated content (word count increased by 1614%) while reducing ROUGE-1 scores by 69.7%. Among fusion methods, Transformer-based strategies achieve the highest composite score (0.521), despite occasional stability issues. Multimodal ensembles yield moderate consistency (ranging from 0.444 to 0.481), reflecting the persistent challenges of cross-modal semantic grounding. These findings underscore the promise of collaborative, specialization-driven architectures for advancing reliable multimodal generative systems.

Comments:	16 pages, 13 figures
Subjects:	Artificial Intelligence (cs.AI)
Cite as:	arXiv:2510.10633 [cs.AI]
	(or arXiv:2510.10633v1 [cs.AI] for this version)
	https://doi.org/10.48550/arXiv.2510.10633

Submission history

From: Minfeng Qi [view email]
[v1] Sun, 12 Oct 2025 14:29:32 UTC (19,306 KB)

Computer Science > Artificial Intelligence

Title:Collaborative Text-to-Image Generation via Multi-Agent Reinforcement Learning and Semantic Fusion

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Artificial Intelligence

Title:Collaborative Text-to-Image Generation via Multi-Agent Reinforcement Learning and Semantic Fusion

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators