> 自媒体 > (AI)人工智能 > Qwen-Scope 开源:阿里通义给大模型装上“显微镜”
Qwen-Scope 开源:阿里通义给大模型装上“显微镜”
来源:边角料
2026-05-03 08:56:15
176
管理

大模型越来越强,但“为什么会这样回答”依然是开发者最头疼的问题之一。

模型突然混用语言、在安全请求上误拒,或者陷入重复输出时,传统调试手段往往只能看到输入和输出,很难定位到模型内部到底激活了哪些行为特征。

5月1日消息,Qwen 团队发布 Qwen-Scope,一套开源的稀疏自编码器(Sparse Autoencoder,SAE)工具包,覆盖 Qwen3 与 Qwen3.5 系列模型。

简单理解,它像是给大语言模型装上了一台“特征显微镜”:把隐藏层中难以解释的高维向量,拆成更稀疏、更可读的特征字典,让开发者有机会直接观察并调节模型内部行为。

这次发布的规模并不小。公开信息显示,Qwen-Scope 提供 14 组 SAE 权重,覆盖 7 个模型变体,包括 Qwen3-1.7B、Qwen3-8B、Qwen3.5-2B、Qwen3.5-9B、Qwen3.5-27B 五个稠密模型,以及 Qwen3-30B-A3B、Qwen3.5-35B-A3B 两个 MoE 模型。Hugging Face 上的 Qwen-Scope 集合也已上线,包含多组按模型、宽度和 Top-K 设置划分的 SAE 权重。

SAE 到底能做什么?

SAE 的核心作用,是在模型前向推理时读取某一层的 residual stream,并将其分解成一组稀疏特征。每次只有少量特征被激活,因此相比原始隐藏状态,这些特征更容易对应到“语言倾向”“风格偏好”“安全行为”“能力片段”等可理解概念。

以 Qwen3.5-27B 对应的一组权重为例,其 SAE 覆盖 0 到 63 层,每层一个 checkpoint,隐藏维度为 5120,SAE 宽度为 81920,扩展倍率 16 倍,Top-K 为 50。也就是说,开发者可以在指定层捕获模型内部激活,再查看哪些稀疏特征真正参与了当前输出。

从研究工具到开发工具:四类典型用途

第一,推理时干预。Qwen-Scope 可以在不修改模型权重的情况下,通过增加或削弱某些特征方向来影响输出行为。报道中提到的案例包括:模型在英文提示下意外混入中文时,研究人员定位到高激活的中文语言特征并进行抑制,从而消除语言混杂;也可以主动激活古汉语风格特征,让故事续写更接近文言表达。

第二,评测分析。传统评测需要在大量 benchmark 上重复跑模型,成本较高。Qwen-Scope 的思路是用特征激活来分析评测样本分布:如果两个 benchmark 激活了高度重叠的特征,它们可能在考察相似能力;如果重叠度低,则更有保留价值。报道显示,团队提出的特征冗余指标与基于性能的冗余结果有较高相关性,并观察到 GSM8K 的大量特征已被 MATH 覆盖。

第三,数据与安全工作流。SAE 特征可以被用作轻量分类器,帮助识别多语言有害内容,也能用于安全数据合成:先找出现有监督数据未覆盖的安全特征,再生成能激活这些特征的训练样本。相比随机采样,这种“按特征补盲”的方式更接近数据工程里的定向补洞。

第四,后训练优化。Qwen-Scope 还尝试把 SAE 特征引入 SFT 和强化学习阶段。例如针对多语言模型的意外 code-switching,团队通过 SAE 找到特定语言特征,并在训练中加入约束来降低非目标语言激活;针对模型重复输出,则利用特征引导构造稀有负样本,让 RL 过程更容易学习到避免重复的信号。

过去,模型可解释性常被视为偏研究的问题,离产品落地有一段距离。Qwen-Scope 的意义在于,它把“看懂模型内部”与实际开发流程连接起来:不仅能解释模型为什么出错,还能参与评测去重、数据筛选、安全增强和训练改进。

对模型平台、AI 应用团队和安全评测团队来说,这类工具有望降低调试成本,也让模型治理从“结果层面纠错”进一步走向“特征层面诊断”。

不过也要看到,SAE 并不是万能答案。特征是否稳定、是否跨模型可迁移、干预是否会带来副作用,仍需要在更多场景中验证。Qwen 团队也在模型卡中提醒,解释性工具应服务于科学研究和合规开发,不能被用于干扰模型能力或生成、传播有害内容。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
NeurIPS 2025放榜:阿里Qwen门控注意力获最佳论文
嘻疯 发自 凹非寺量子位 | 公众号 QbitAI刚刚,NeurIPS 2025最佳论文奖、..
阿里千问开源4款Qwen3.5小尺寸模型,满足资源受限至轻量应用不同需求..
【太平洋科技快讯】3月3日消息,阿里千问近日开源四款Qwen3.5更小尺寸模..
实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%..
它用时四分钟左右,写完了1200多行代码。从实测结果来看,游戏设计与前端..
阿里亲身入局具身智能!Qwen内部组团,通义千问技术负责人带队..
衡宇 发自 凹非寺量子位 | 公众号 QbitAIQwen团队内部组建了一个全新的具..
Qwen紧追OpenAI开源4B端侧大模型,AIME25得分超越Claude 4 Opus..
衡宇 发自 凹非寺量子位 | 公众号 QbitAI三天不开源,Qwen团队手就痒。昨..
Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒
全球最快的开源大模型来了——速度达到了每秒2000个tokens!虽然只有320..
激活170亿参数 Qwen3.5实测 重构大模型性价比逻辑
2月16日Qwen3.5正式开源,以3970亿总参数、仅170亿激活参数的架构实现性..
Qwen最新闭源模型曝光!实测夸克“对话助手”
10月23日,阿里旗下夸克正式上线“对话助手”。从界面上看,它像是“塞进..
林俊旸离职后,Qwen的变与不变
来源:视觉中国OpenAI早期也曾采用垂直整合的架构模式,并集中资源完成了..
关于作者
有点醉(普通会员)
文章
1933
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106516

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索