Systematic Evaluation of Large Vision-Language Models for Surgical Artificial Intelligence

Rau, Anita; Endo, Mark; Aklilu, Josiah; Heo, Jaewoo; Saab, Khaled; Paderno, Alberto; Jopling, Jeffrey; Holsinger, F. Christopher; Yeung-Levy, Serena

Computer Science > Computer Vision and Pattern Recognition

arXiv:2504.02799 (cs)

[Submitted on 3 Apr 2025]

Title:Systematic Evaluation of Large Vision-Language Models for Surgical Artificial Intelligence

Authors:Anita Rau, Mark Endo, Josiah Aklilu, Jaewoo Heo, Khaled Saab, Alberto Paderno, Jeffrey Jopling, F. Christopher Holsinger, Serena Yeung-Levy

View PDF HTML (experimental)

Abstract:Large Vision-Language Models offer a new paradigm for AI-driven image understanding, enabling models to perform tasks without task-specific training. This flexibility holds particular promise across medicine, where expert-annotated data is scarce. Yet, VLMs' practical utility in intervention-focused domains--especially surgery, where decision-making is subjective and clinical scenarios are variable--remains uncertain. Here, we present a comprehensive analysis of 11 state-of-the-art VLMs across 17 key visual understanding tasks in surgical AI--from anatomy recognition to skill assessment--using 13 datasets spanning laparoscopic, robotic, and open procedures. In our experiments, VLMs demonstrate promising generalizability, at times outperforming supervised models when deployed outside their training setting. In-context learning, incorporating examples during testing, boosted performance up to three-fold, suggesting adaptability as a key strength. Still, tasks requiring spatial or temporal reasoning remained difficult. Beyond surgery, our findings offer insights into VLMs' potential for tackling complex and dynamic scenarios in clinical and broader real-world applications.

Subjects:	Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)
Cite as:	arXiv:2504.02799 [cs.CV]
	(or arXiv:2504.02799v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2504.02799

Submission history

From: Anita Rau [view email]
[v1] Thu, 3 Apr 2025 17:42:56 UTC (4,330 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Systematic Evaluation of Large Vision-Language Models for Surgical Artificial Intelligence

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Systematic Evaluation of Large Vision-Language Models for Surgical Artificial Intelligence

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators