7B打败o3、GPT-5，医学AI智能体让模型学会“看哪里、怎么看”-工信会

> 自媒体 > （AI）人工智能 > 7B打败o3、GPT-5，医学AI智能体让模型学会“看哪里、怎么看”

7B打败o3、GPT-5，医学AI智能体让模型学会“看哪里、怎么看”

来源：36氪

2026-06-10 18:50:54

186

管理

医学AI会写解释，但不代表它真的“看到”了关键证据。

过去的医学多模态模型，大多是把一张影像或一段视频编码成视觉特征，然后让大模型生成答案与解释。

但问题在于——一个微小病灶、一个边界变化、一段几秒钟的手术动作，往往就决定了答案是否成立。

而模型“被动接收”视觉上下文时，很容易看错区域、漏看病灶。

为应对这一问题，上海创智学院LeapQuest团队联合浙江大学、上海交通大学、复旦大学，一口气拿出了两篇ICML 2026接收论文，首次把Think with Images/Think with Videos范式应用在医学AI领域：

模型不再只是看完图像或视频后生成解释，而是在推理链中主动调用视觉工具，重新观察关键区域或关键时刻，并用新证据修正判断。

这意味着，视觉不再只是输入，视觉证据本身成了模型思考过程的一部分。

两篇工作的核心关键词如下：

△

△

这使MedScope的推理过程天然具备可审查性：模型为什么回答这个结果，不只看它“说了什么”，还可以看它“回看了哪一段视频、找到了哪些帧、这些证据是否支持结论”。

△

在SVU-31K、ClinVideo-Eval等评测中，MedScope在多粒度视频理解、细粒度时序推理和grounded VQA上取得开源模型中的SOTA。

论文还显示，去掉evidence reward会显著降低定位质量，例如R@0.5从40.1下降到33.2，mIoU从4.3下降到38.8，说明答案级监督不足以教会模型可靠地选择证据。

真正的范式变化：视觉从“输入”变成“思维过程”

把两篇工作放在一起看，最重要的不是Ophiuchus处理图像、MedScope处理视频，而是它们共同定义了一种新的医学多模态智能范式：

模型的推理过程不再只是语言token的展开，而是语言、工具、图像区域、视频片段和证据反馈之间的闭环交互。

医学AI的下一个关键能力，不是生成更长的解释，而是在给出解释前主动寻找、验证并引用视觉证据。

Ophiuchus和MedScope把这一点从方法论变成了可训练、可评测、可扩展的技术路线。

为什么这可能成为医学AI Agent的关键拐点

医学任务与通用视觉问答最大的不同，是每一个结论都需要证据链。

放射科医生会放大病灶边缘，病理医生会寻找细胞形态，外科医生会回看关键操作，内镜医生会追踪病灶在时间中的出现与消失。

也就是说，临床视觉推理天然就是交互式、证据驱动和可复核的。

“Think with Images/Videos”的意义，正是让医学AI向这种真实临床认知方式靠近。

它不再满足于一次性预测，而是在模型内部建立“假设-查证-修正-回答”的循环。

这为临床可信AI提供了三类重要能力：更少幻觉、更强可解释性、更适合复杂流程。

医学AI开始真正“边看边想”

从Ophiuchus到MedScope，可以看到医学多模态大模型正在发生一次底层范式转向：

从看图、看视频，到在推理过程中持续地看；从输出答案，到主动寻找证据；从语言链条，到视觉证据参与的多模态思维链。

这也解释了为什么“think with images/videos”值得被单独提出。

它不是一个更花哨的工具调用框架，而是在医学AI里重新定义了“推理”的边界：推理不只是语言生成，而是围绕证据进行的动态视觉探索。

当模型能够在思考中主动回看影像、放大病灶、截取视频、验证证据，医学AI才真正从“会回答问题”走向“会进行临床视觉推理”。

LeapQuest［起跃界问］是上海创智学院面向下一代医学AI Agent、视觉推理与多模态大模型的青年交叉研究团队，聚焦Visual Reasoning、Agentic RL、Clinical Tools，推动模型从“生成答案”走向基于证据的观察、验证与行动。

项目GitHub：

MedScope｜Think with Videos：https://github.com/SII-WenjieLisjtu/MedScope

Ophiuchus｜Think with Images：https://github.com/SII-zyj/Ophiuchus

本文来自微信公众号“量子位”，作者：上海创智学院 LeapQuest 团队，36氪经授权发布。

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

2026年AI客服选型：深度解析来鼓AI融合DeepSeek与GPT的3大优势

GPT-5.5 系列技术路线分化：可靠性与突破性的工程化抉择

相关文章

ChatGPT锁定模式全开放，个人用户也能用

IT之家 6 月 6 日消息，OpenAI 昨天宣布为所有 ChatGPT 个人用户开放“锁..

ChatGPT以梦为笔

本文来自微信公众号：字母AI，作者：小金牙，编辑：王靖，原文标题：《Ch..

蜜蜂有没有感觉，ChatGPT是否有意识：科学家在认真研究这个问题..

如果有人告诉你，花园里采蜜的蜜蜂和你电脑浏览器里运行的ChatGPT，正在..

姚顺雨回应“腾讯慢了”：AI赛跑是场马拉松，世界不能只有ChatGPT..

2022年7月的一个晚上，当第一次将PaLM 2的API(注：大模型接口）和手写的W..

AI篮球助手“NBA Chat”上线

新华网北京6月5日电 5日，正值美职篮（NBA）总决赛期间，首个NBA官方大模..

NBA总决赛开战首个官方AI篮球助手“NBA Chat”上线

封面新闻记者吴雨佳6月5日，正值NBA总决赛开赛之际，NBA中国携手阿里巴..

再见o3、GPT-4.5！OpenAI疯狂迭代：GPT-5.6将至，AI“月更”时代..

就在5月底，OpenAI扔出一颗“重磅炸弹”：官宣o3与GPT-4.5全面退役，同时..

字节豆包2.0发布：推理成本降一个数量级，正面对标GPT-5和Gemini 3..

字节跳动旗下豆包大模型正式进入2.0阶段，推出面向Agent时代的系统性升级..

Qwen3.7-Plus 实测，79分干翻了GPT-5.4

Qwen3.7-Plus 长眼睛了：以前你让AI帮你做个界面，跟它说“那个按钮放右..

关于作者

帝王之星(普通会员)

文章

2022

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

2025/02/08

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

2025/02/09

05

AI 界黑马DeepSeek 超详细介绍

2025/02/09

标签云

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体112935

@2022 All Rights Reserved

浙ICP备19035174号-6 技术支持：千寻网络

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索