OpenAI 新发现：AI 模型中存在与 “角色” 对应的特征标识-工信会

> 自媒体 > （AI）人工智能 > OpenAI 新发现：AI 模型中存在与 “角色” 对应的特征标识

OpenAI 新发现：AI 模型中存在与 “角色” 对应的特征标识

来源：环球网

2025-09-14 14:14:55

管理

来源：环球网

【环球网科技综合报道】6月19日消息，据外媒报道，OpenAI 团队近日在人工智能模型安全性研究领域取得重要进展。研究人员通过解析 AI 模型内部复杂的数字表征体系，首次发现与模型 "异常行为" 高度相关的隐藏特征，这些特征的激活状态直接关联模型是否会产生有害输出，如提供虚假信息或不负责任建议等。更具突破性的是，研究团队证实可通过精准调节这类特征，实现对模型 "毒性" 水平的量化控制。

"我们在模型的神经激活模式中观察到类似人类大脑神经元的功能分化现象。"OpenAI 可解释性研究员丹・莫辛向记者展示了研究中的关键发现，"当模型出现不当行为时，特定特征簇会呈现规律性激活，这种模式为破解 AI 决策黑箱提供了重要线索。" 该团队实验数据显示，通过数百个安全代码示例对模型进行定向微调，即可使发生 "突发错位" 的模型迅速恢复合规行为模式。

这一研究建立在行业对 AI 可解释性的持续探索基础上。Anthropic 等机构此前已尝试绘制模型内部工作图谱，而 OpenAI 的新发现首次将抽象特征与具体行为毒性建立直接关联。前沿评估研究员特贾尔・帕特瓦德汉评价道："这种可调控的内部表征发现，让 AI 对齐研究从经验驱动转向科学设计，我们首次拥有了像调节电路参数般优化模型行为的可能。"

值得关注的是，该研究成果已显现实际应用价值。研究团队透露，相关检测工具可实时监控生产环境中模型的特征激活状态，精准识别潜在的行为错位风险。这种将复杂神经现象转化为数学运算的方法论，也为理解模型泛化能力等核心问题提供了新工具。

当前，AI 安全已成为全球科技治理的焦点议题。牛津大学此前研究曾警示，模型在不安全数据上微调可能诱发恶意行为。此次 OpenAI 的发现为行业提供了积极解决方案，通过特征调控技术，既能保留 AI 模型的强大能力，又能有效遏制潜在风险。（纯钧）

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

什么是 AGI？尚无人能说清，这个问题正在撕裂 Microsoft 和 OpenAI

9个月前

OpenAI 揭示大语言模型 “幻觉” 成因，探寻破解之道

9个月前