Qwen-Scope 开源：阿里通义给大模型装上“显微镜”-工信会

> 自媒体 > （AI）人工智能 > Qwen-Scope 开源：阿里通义给大模型装上“显微镜”

Qwen-Scope 开源：阿里通义给大模型装上“显微镜”

来源：边角料

2026-05-03 08:56:15

212

管理

大模型越来越强，但“为什么会这样回答”依然是开发者最头疼的问题之一。

模型突然混用语言、在安全请求上误拒，或者陷入重复输出时，传统调试手段往往只能看到输入和输出，很难定位到模型内部到底激活了哪些行为特征。

5月1日消息，Qwen 团队发布 Qwen-Scope，一套开源的稀疏自编码器（Sparse Autoencoder，SAE）工具包，覆盖 Qwen3 与 Qwen3.5 系列模型。

简单理解，它像是给大语言模型装上了一台“特征显微镜”：把隐藏层中难以解释的高维向量，拆成更稀疏、更可读的特征字典，让开发者有机会直接观察并调节模型内部行为。

这次发布的规模并不小。公开信息显示，Qwen-Scope 提供 14 组 SAE 权重，覆盖 7 个模型变体，包括 Qwen3-1.7B、Qwen3-8B、Qwen3.5-2B、Qwen3.5-9B、Qwen3.5-27B 五个稠密模型，以及 Qwen3-30B-A3B、Qwen3.5-35B-A3B 两个 MoE 模型。Hugging Face 上的 Qwen-Scope 集合也已上线，包含多组按模型、宽度和 Top-K 设置划分的 SAE 权重。

SAE 到底能做什么？

SAE 的核心作用，是在模型前向推理时读取某一层的 residual stream，并将其分解成一组稀疏特征。每次只有少量特征被激活，因此相比原始隐藏状态，这些特征更容易对应到“语言倾向”“风格偏好”“安全行为”“能力片段”等可理解概念。

以 Qwen3.5-27B 对应的一组权重为例，其 SAE 覆盖 0 到 63 层，每层一个 checkpoint，隐藏维度为 5120，SAE 宽度为 81920，扩展倍率 16 倍，Top-K 为 50。也就是说，开发者可以在指定层捕获模型内部激活，再查看哪些稀疏特征真正参与了当前输出。

从研究工具到开发工具：四类典型用途

第一，推理时干预。Qwen-Scope 可以在不修改模型权重的情况下，通过增加或削弱某些特征方向来影响输出行为。报道中提到的案例包括：模型在英文提示下意外混入中文时，研究人员定位到高激活的中文语言特征并进行抑制，从而消除语言混杂；也可以主动激活古汉语风格特征，让故事续写更接近文言表达。

第二，评测分析。传统评测需要在大量 benchmark 上重复跑模型，成本较高。Qwen-Scope 的思路是用特征激活来分析评测样本分布：如果两个 benchmark 激活了高度重叠的特征，它们可能在考察相似能力；如果重叠度低，则更有保留价值。报道显示，团队提出的特征冗余指标与基于性能的冗余结果有较高相关性，并观察到 GSM8K 的大量特征已被 MATH 覆盖。

第三，数据与安全工作流。SAE 特征可以被用作轻量分类器，帮助识别多语言有害内容，也能用于安全数据合成：先找出现有监督数据未覆盖的安全特征，再生成能激活这些特征的训练样本。相比随机采样，这种“按特征补盲”的方式更接近数据工程里的定向补洞。

第四，后训练优化。Qwen-Scope 还尝试把 SAE 特征引入 SFT 和强化学习阶段。例如针对多语言模型的意外 code-switching，团队通过 SAE 找到特定语言特征，并在训练中加入约束来降低非目标语言激活；针对模型重复输出，则利用特征引导构造稀有负样本，让 RL 过程更容易学习到避免重复的信号。

过去，模型可解释性常被视为偏研究的问题，离产品落地有一段距离。Qwen-Scope 的意义在于，它把“看懂模型内部”与实际开发流程连接起来：不仅能解释模型为什么出错，还能参与评测去重、数据筛选、安全增强和训练改进。

对模型平台、AI 应用团队和安全评测团队来说，这类工具有望降低调试成本，也让模型治理从“结果层面纠错”进一步走向“特征层面诊断”。

不过也要看到，SAE 并不是万能答案。特征是否稳定、是否跨模型可迁移、干预是否会带来副作用，仍需要在更多场景中验证。Qwen 团队也在模型卡中提醒，解释性工具应服务于科学研究和合规开发，不能被用于干扰模型能力或生成、传播有害内容。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

马斯克称赞阿里巴巴Qwen模型

1个月前

Qwen2.5长上下文推理提速2.66倍！加州大学\u0026NVIDIA提出CPU-GPU协同混合注意力计算框架HybridGen

1个月前