医学AI会写解释,但不代表它真的“看到”了关键证据。
过去的医学多模态模型,大多是把一张影像或一段视频编码成视觉特征,然后让大模型生成答案与解释。
但问题在于——一个微小病灶、一个边界变化、一段几秒钟的手术动作,往往就决定了答案是否成立。
而模型“被动接收”视觉上下文时,很容易看错区域、漏看病灶。
为应对这一问题,上海创智学院LeapQuest团队联合浙江大学、上海交通大学、复旦大学,一口气拿出了两篇ICML 2026接收论文,首次把Think with Images/Think with Videos范式应用在医学AI领域:
模型不再只是看完图像或视频后生成解释,而是在推理链中主动调用视觉工具,重新观察关键区域或关键时刻,并用新证据修正判断。
这意味着,视觉不再只是输入,视觉证据本身成了模型思考过程的一部分。
两篇工作的核心关键词如下:
△
△
这使MedScope的推理过程天然具备可审查性:模型为什么回答这个结果,不只看它“说了什么”,还可以看它“回看了哪一段视频、找到了哪些帧、这些证据是否支持结论”。
△
在SVU-31K、ClinVideo-Eval等评测中,MedScope在多粒度视频理解、细粒度时序推理和grounded VQA上取得开源模型中的SOTA。
论文还显示,去掉evidence reward会显著降低定位质量,例如R@0.5从40.1下降到33.2,mIoU从4.3下降到38.8,说明答案级监督不足以教会模型可靠地选择证据。
真正的范式变化:视觉从“输入”变成“思维过程”把两篇工作放在一起看,最重要的不是Ophiuchus处理图像、MedScope处理视频,而是它们共同定义了一种新的医学多模态智能范式:
模型的推理过程不再只是语言token的展开,而是语言、工具、图像区域、视频片段和证据反馈之间的闭环交互。

医学AI的下一个关键能力,不是生成更长的解释,而是在给出解释前主动寻找、验证并引用视觉证据。
Ophiuchus和MedScope把这一点从方法论变成了可训练、可评测、可扩展的技术路线。
为什么这可能成为医学AI Agent的关键拐点医学任务与通用视觉问答最大的不同,是每一个结论都需要证据链。
放射科医生会放大病灶边缘,病理医生会寻找细胞形态,外科医生会回看关键操作,内镜医生会追踪病灶在时间中的出现与消失。
也就是说,临床视觉推理天然就是交互式、证据驱动和可复核的。
“Think with Images/Videos”的意义,正是让医学AI向这种真实临床认知方式靠近。
它不再满足于一次性预测,而是在模型内部建立“假设-查证-修正-回答”的循环。
这为临床可信AI提供了三类重要能力:更少幻觉、更强可解释性、更适合复杂流程。
从Ophiuchus到MedScope,可以看到医学多模态大模型正在发生一次底层范式转向:
从看图、看视频,到在推理过程中持续地看;从输出答案,到主动寻找证据;从语言链条,到视觉证据参与的多模态思维链。
这也解释了为什么“think with images/videos”值得被单独提出。
它不是一个更花哨的工具调用框架,而是在医学AI里重新定义了“推理”的边界:推理不只是语言生成,而是围绕证据进行的动态视觉探索。
当模型能够在思考中主动回看影像、放大病灶、截取视频、验证证据,医学AI才真正从“会回答问题”走向“会进行临床视觉推理”。
LeapQuest[起跃界问]是上海创智学院面向下一代医学AI Agent、视觉推理与多模态大模型的青年交叉研究团队,聚焦Visual Reasoning、Agentic RL、Clinical Tools,推动模型从“生成答案”走向基于证据的观察、验证与行动。
项目GitHub:
MedScope|Think with Videos:https://github.com/SII-WenjieLisjtu/MedScope
Ophiuchus|Think with Images:https://github.com/SII-zyj/Ophiuchus
本文来自微信公众号“量子位”,作者:上海创智学院 LeapQuest 团队,36氪经授权发布。
相关文章



猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体112935