返回
ai-tools2026年6月30日1 分钟

IMCBench:面向多模态大语言模型的图像驱动医疗对话基准

#多模态大语言模型#医疗对话#基准测试#临床安全#图像理解

1. 论文基本信息

计算机科学 > 人工智能 arXiv:2606.28556 (cs) [提交于2026年6月26日] 标题:IMCBench:面向多模态大语言模型的图像驱动医疗对话基准 作者:Maria Xenochristou, Ashutosh Joshi, Korosh Vatanparvar, Mohammad Abuzar Hashemi, Prasad Kasu, Deepak Bansal, Anchal Nema, Nivedita Wadhwa, Prashams S Jain, Rebecca Abraham, Will Kimbrough, Dilek Hakkani-Tur, Wilko Schulz-Mahlendorf 查看论文PDF,标题为《IMCBench:面向多模态大语言模型的图像驱动医疗对话基准》,作者Maria Xenochristou等12人。查看PDF HTML(实验性)

2. 摘要

近期大语言模型(LLMs)和视觉语言模型(VLMs)的进展使得对多模态数据进行推理成为可能,为临床决策支持和分诊等应用提供了机会。然而,现有的医疗AI基准测试较为分散:有些支持多轮对话但不包含图像,而另一些虽提供多模态输入但聚焦于单轮问答任务。为弥补这一空白,我们引入了IMCBench,一个基于图像的多轮医疗对话基准测试,它将真实、公开的临床图像与合成患者档案配对,以模拟真实的患者-临床医生互动。每次对话从三个临床维度进行评估:安全性、准确性以及诊断中不确定性的恰当使用。我们对四个模型家族(Claude、GPT、Nova和Llama)中的八种前沿多模态模型进行了基准测试,使用经过临床专家标注校准的LLM-as-Jury评分方法,对每个模型按1-5分制进行评分。结果显示,Claude Opus 4.6取得了最高总分(3.61),其次是Claude Sonnet 4.6(3.30)和GPT-5.2(3.29),但没有任何模型在所有维度上占据主导地位,且对于恶性和罕见疾病,安全性均有所下降(各自Δ = -0.27)。消融研究进一步揭示,视觉输入和电子健康记录(EHR)背景信息均有助于提供安全指导(当分别移除两者时,安全性平均下降0.18和0.23),且更强的模型能更有效地利用视觉特征。综合来看,这些发现表明,准确的临床描述并不能保证安全的患者指导,这凸显了在医疗AI中采用多维评估框架的必要性。

3. 论文元数据

评论:已被ECML PKDD 2026接收。22页,2张图。主题:人工智能(cs.AI)。引用格式:arXiv:2606.28556 [cs.AI](或本版本:arXiv:2606.28556v1 [cs.AI])。DOI:https://doi.org/10.48550/arXiv.2606.28556。更多信息请关注arXiv通过DataCite发布的DOI(待注册)。提交历史:来自Maria Xenochristou [查看电子邮件] [v1] 2026年6月26日星期五 19:18:16 UTC(866 KB)。全文链接:访问论文:查看PDF,标题为《IMCBench:面向多模态大语言模型的图像驱动医疗对话基准》,作者Maria Xenochristou等12人。查看PDF HTML(实验性)。TeX源代码。查看许可证。当前浏览上下文:cs.AI 上一页 | 下一页 | 新 | 近期 | 2026-06。更改为浏览:cs。参考文献:引用。NASA ADS。Google Scholar。Semantic Scholar。导出BibTeX引用。加载中... BibTeX格式引用加载中... 数据提供:书签。书目工具:书目浏览器(什么是浏览器?)、关联论文(什么是关联论文?)、Litmaps(什么是Litmaps?)、scite.ai(什么是scite智能引用?)。代码、数据、媒体:与本文相关的代码、数据和媒体。alphaXiv(什么是alphaXiv?)、代码链接(什么是CatalyzeX代码查找器?)、DagsHub(什么是DagsHub?)、GotitPub(什么是Gotit.pub?)、Huggingface(什么是Huggingface?)、ScienceCast(什么是ScienceCast?)。演示:Replicate(什么是Replicate?)、Spaces(什么是Hugging Face Spaces?)、Spaces(什么是TXYZ.AI?)。相关论文:推荐和搜索工具。影响力花链接(什么是影响力花?)、核心推荐器(什么是CORE推荐器?)。作者、机构、主题。关于arXivLabs:arXivLabs是与社区合作者共同开发实验性项目的框架。与arXivLabs合作的个人和组织都接受并认同我们关于开放性、社区、卓越和用户数据隐私的价值观。arXiv致力于这些价值观,并仅与遵守这些价值观的合作伙伴合作。有能为arXiv社区增值的项目想法吗?了解更多关于arXivLabs的信息。本文的哪些作者是背书人?| 禁用MathJax(什么是MathJax?)。


🔗 原文链接:https://arxiv.org/abs/2606.28556