解放军总医院联合南大、吉大等机构，共同提出SpineGPT-工信会

> 自媒体 > （AI）人工智能 > 解放军总医院联合南大、吉大等机构，共同提出SpineGPT

解放军总医院联合南大、吉大等机构，共同提出SpineGPT

来源：机器之心Pro

2026-04-29 16:48:28

238

管理

本研究由解放军总医院牵头，联合浙江大学医学院附属第二医院、复旦大学附属华山医院等共 11 家国内顶尖三甲医院，携手南京大学、吉林大学两所重点高校，并汇聚 Pi3Lab、上海三友医疗器械股份有限公司等产学研多方力量，共同完成了首个面向脊柱诊疗领域的大模型研发。

论文共同第一作者包括赵明、董文辉博士、张阳医生，核心贡献者包括来自浙江大学医学院附属第二医院的陈其昕教授、夏顺楷医生，以及复旦大学附属华山医院的马晓生教授、管韵致医生等。通讯作者为解放军总医院骨科医学部副主任孙天胜教授，共同通讯作者为南京大学智能科学与技术副院长单彩峰教授。

脊柱疾病影响全球 6.19 亿人，是致残的主要原因之一。然而，现有 AI 模型在临床决策中仍存在「认知鸿沟」。缺乏椎体级别（level-aware）、多模态融合的指令数据和标准化基准，是制约 AI 辅助诊断的关键瓶颈。

本文提出了一套统性的解决方案，包括首个大规模、具有可追溯性的脊柱指令数据集 SpineMed-450K，以及临床级评测基准 SpineBench。基于此训练出的专科大模型 SpineGPT，在所有任务上均实现了显著提升，仅仅 7B 参数量，全面超越了包括 GLM-4.5V 和 Qwen2.5-VL-72B 在内的顶尖开源大模型。

论文地址：https://arxiv.org/pdf/2510.03160

临床痛点：通用 LVLM 的「认知鸿沟」

脊柱疾病的临床诊疗，需要复杂的推理过程：整合 X 光、CT、MRI 等多模态影像的发现，并将病灶精确定位到特定的椎体层面（Level-Aware Reasoning），以确定严重程度并规划干预措施。这种集成推理能力，是现有通用视觉 - 语言大模型（LVLMs）的系统性弱点。

在 SpineBench 的评测中，这一弱点暴露无遗：

1.超越开源，逼近顶尖专有模型： SpineGPT 达到了 87.44% 的平均分，大幅领先所有开源大模型 4.18 个百分点以上。在纯文本 QA 任务上（89.46%），SpineGPT 甚至超越了所有参评模型，包括 GPT5 (87.41%) 。

2.专科数据的重要性（消融实验）：

模型仅在通用医疗数据上训练时，性能显著下降（74.95% vs 65.31%）。纳入精心策划的非脊柱通用骨科数据后，性能得到大幅提升（82.14% vs 74.95%），验证了领域对齐训练数据的重要性。最终，纳入脊柱特异性训练数据（包括对话、报告生成和长链推理指令）后，模型性能进一步增强至 87.89%。

3.临床报告能力显著增强： SpineGPT 在医疗报告生成任务上的总分为 87.24 分，而 Qwen2.5-VL-72B 仅为 63.80 分，ChatGPT-4o 为 64.04 分。

案例对比：在对「青少年特发性脊柱侧凸」病例的分析中，SpineGPT 提供了包含 72 个详细的临床处理流程，涵盖了完整的影像发现、AI 诊断、患者和医生导向的治疗建议、风险管理和术后问题管理。相比之下，ChatGPT-4o 的报告则更偏向于适合一般医疗文档的基本诊断和治疗建议。

4.人类专家高度认可：人类专家对报告评分与 LLM 自动评分之间的 Pearson 相关系数达到 0.382 至 0.949，大多数维度相关性在 0.7 以上。这有力地验证了 LLM 自动评分作为专家判断代理的可靠性。

结论与展望

这项研究证明了：对于脊柱诊断这样需要复杂解剖推理的专业领域，专科指令数据和「临床医生介入」的开发流程是实现临床级 AI 能力的关键。

SpineMed-450K 和 SpineBench 的发布，为未来的 AI 研究提供了一个高实用性的基线。研究团队计划将拓展数据集、训练大于 7B 参数的模型，并结合强化学习技术，继续深化与领先专有模型的直接比较，以确立更清晰的性能基准。

Pi3Lab 介绍

Pi3Lab 专注于 AI Agent 的行业落地，致力于通过 RLaaS 平台让通用模型在实际业务中真正低成本、高效率地用起来。目前我们正在招聘 RL RA（强化学习研究助理），欢迎投递简历：wenhui.dong@pi3lab.com

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

18款AI模型幻觉率大公开｜你的AI靠谱吗？

1个月前

千问携3亿月活“跨界打车”，滴滴用90多个标签“深挖体验” AI入口战火烧到出行领域

1个月前