IMCBench：面向多模态大语言模型的图像驱动医疗对话基准

1. 论文基本信息

计算机科学 > 人工智能 arXiv:2606.28556 (cs) [提交于2026年6月26日] 标题：IMCBench：面向多模态大语言模型的图像驱动医疗对话基准作者：Maria Xenochristou, Ashutosh Joshi, Korosh Vatanparvar, Mohammad Abuzar Hashemi, Prasad Kasu, Deepak Bansal, Anchal Nema, Nivedita Wadhwa, Prashams S Jain, Rebecca Abraham, Will Kimbrough, Dilek Hakkani-Tur, Wilko Schulz-Mahlendorf 查看论文PDF，标题为《IMCBench：面向多模态大语言模型的图像驱动医疗对话基准》，作者Maria Xenochristou等12人。查看PDF HTML（实验性）

2. 摘要

近期大语言模型（LLMs）和视觉语言模型（VLMs）的进展使得对多模态数据进行推理成为可能，为临床决策支持和分诊等应用提供了机会。然而，现有的医疗AI基准测试较为分散：有些支持多轮对话但不包含图像，而另一些虽提供多模态输入但聚焦于单轮问答任务。为弥补这一空白，我们引入了IMCBench，一个基于图像的多轮医疗对话基准测试，它将真实、公开的临床图像与合成患者档案配对，以模拟真实的患者-临床医生互动。每次对话从三个临床维度进行评估：安全性、准确性以及诊断中不确定性的恰当使用。我们对四个模型家族（Claude、GPT、Nova和Llama）中的八种前沿多模态模型进行了基准测试，使用经过临床专家标注校准的LLM-as-Jury评分方法，对每个模型按1-5分制进行评分。结果显示，Claude Opus 4.6取得了最高总分（3.61），其次是Claude Sonnet 4.6（3.30）和GPT-5.2（3.29），但没有任何模型在所有维度上占据主导地位，且对于恶性和罕见疾病，安全性均有所下降（各自Δ = -0.27）。消融研究进一步揭示，视觉输入和电子健康记录（EHR）背景信息均有助于提供安全指导（当分别移除两者时，安全性平均下降0.18和0.23），且更强的模型能更有效地利用视觉特征。综合来看，这些发现表明，准确的临床描述并不能保证安全的患者指导，这凸显了在医疗AI中采用多维评估框架的必要性。

3. 论文元数据

评论：已被ECML PKDD 2026接收。22页，2张图。主题：人工智能（cs.AI）。引用格式：arXiv:2606.28556 [cs.AI]（或本版本：arXiv:2606.28556v1 [cs.AI]）。DOI：https://doi.org/10.48550/arXiv.2606.28556。更多信息请关注arXiv通过DataCite发布的DOI（待注册）。提交历史：来自Maria Xenochristou [查看电子邮件] [v1] 2026年6月26日星期五 19:18:16 UTC（866 KB）。全文链接：访问论文：查看PDF，标题为《IMCBench：面向多模态大语言模型的图像驱动医疗对话基准》，作者Maria Xenochristou等12人。查看PDF HTML（实验性）。TeX源代码。查看许可证。当前浏览上下文：cs.AI 上一页 | 下一页 | 新 | 近期 | 2026-06。更改为浏览：cs。参考文献：引用。NASA ADS。Google Scholar。Semantic Scholar。导出BibTeX引用。加载中... BibTeX格式引用加载中... 数据提供：书签。书目工具：书目浏览器（什么是浏览器？）、关联论文（什么是关联论文？）、Litmaps（什么是Litmaps？）、scite.ai（什么是scite智能引用？）。代码、数据、媒体：与本文相关的代码、数据和媒体。alphaXiv（什么是alphaXiv？）、代码链接（什么是CatalyzeX代码查找器？）、DagsHub（什么是DagsHub？）、GotitPub（什么是Gotit.pub？）、Huggingface（什么是Huggingface？）、ScienceCast（什么是ScienceCast？）。演示：Replicate（什么是Replicate？）、Spaces（什么是Hugging Face Spaces？）、Spaces（什么是TXYZ.AI？）。相关论文：推荐和搜索工具。影响力花链接（什么是影响力花？）、核心推荐器（什么是CORE推荐器？）。作者、机构、主题。关于arXivLabs：arXivLabs是与社区合作者共同开发实验性项目的框架。与arXivLabs合作的个人和组织都接受并认同我们关于开放性、社区、卓越和用户数据隐私的价值观。arXiv致力于这些价值观，并仅与遵守这些价值观的合作伙伴合作。有能为arXiv社区增值的项目想法吗？了解更多关于arXivLabs的信息。本文的哪些作者是背书人？| 禁用MathJax（什么是MathJax？）。

1. 论文基本信息

2. 摘要

3. 论文元数据

🔗 原文链接：https://arxiv.org/abs/2606.28556