Focus on What Matters: Enhancing Medical Vision-Language Models with Automatic Attention Alignment Tuning

Chang, Aofei; Huang, Le; Boyd, Alex James; Bhatia, Parminder; Kass-Hout, Taha; Xiao, Cao; Ma, Fenglong

Computer Science > Computer Vision and Pattern Recognition

arXiv:2505.18503 (cs)

[Submitted on 24 May 2025]

Title:Focus on What Matters: Enhancing Medical Vision-Language Models with Automatic Attention Alignment Tuning

Authors:Aofei Chang, Le Huang, Alex James Boyd, Parminder Bhatia, Taha Kass-Hout, Cao Xiao, Fenglong Ma

View PDF

Abstract:Medical Large Vision-Language Models (Med-LVLMs) often exhibit suboptimal attention distribution on visual inputs, leading to hallucinated or inaccurate outputs. Existing mitigation methods primarily rely on inference-time interventions, which are limited in attention adaptation or require additional supervision. To address this, we propose A$^3$Tune, a novel fine-tuning framework for Automatic Attention Alignment Tuning. A$^3$Tune leverages zero-shot weak labels from SAM, refines them into prompt-aware labels using BioMedCLIP, and then selectively modifies visually-critical attention heads to improve alignment while minimizing interference. Additionally, we introduce a A$^3$MoE module, enabling adaptive parameter selection for attention tuning across diverse prompts and images. Extensive experiments on medical VQA and report generation benchmarks show that A$^3$Tune outperforms state-of-the-art baselines, achieving enhanced attention distributions and performance in Med-LVLMs.

Comments:	Accepted to ACL2025 (main)
Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2505.18503 [cs.CV]
	(or arXiv:2505.18503v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2505.18503

Submission history

From: Aofei Chang [view email]
[v1] Sat, 24 May 2025 04:45:45 UTC (3,742 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Focus on What Matters: Enhancing Medical Vision-Language Models with Automatic Attention Alignment Tuning

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Focus on What Matters: Enhancing Medical Vision-Language Models with Automatic Attention Alignment Tuning

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators