SurgCheck: Do vision-language models really look at images in surgical VQA?

Purpose: Vision-language models (VLMs) have shown promising performance in surgical visual question answering (VQA). However, existing surgical VQA datasets often contain linguistic shortcuts, where question phrasing implicitly c... ...

请注册登录后继续浏览