> 自媒体 > (AI)人工智能 > GPT-4面对未知88%却在编造,不说不知道是设计层面的原因吗?
GPT-4面对未知88%却在编造,不说不知道是设计层面的原因吗?
来源:法理深读
2026-06-14 14:44:41
91
管理

2022年,一位资深律师用ChatGPT准备一份法庭文件。他让AI找到相关的过往判例。AI回复了六七个案例,每个都带着精确的案号、当事人姓名、判决日期和法律条文引用。格式和语气都与专业法律文书无异。

律师使用ChatGPT检索法庭相关判例内容

这些案例全是虚构的。

这就是大模型“幻觉”的威力——它不是在撒谎,而是在完成工作。要理解为什么大模型宁愿编造也不说“不知道”,得先看懂大模型在干什么。它的核心任务只有一个:给定前面一串文字,预测下一个最合理的词。

问它“李白写过哪些关于月球背面的诗”,它不会判断这个问题是否荒谬、是否触及自己的知识边界,它只是在做一道续写题——前面出现这些字了,后面什么字接上去最通顺。于是它能编出一首押韵工整、风格接近李白的七言绝句,毫不费力。

这就像是让一个人只学会了一件事:把话说顺。不管问什么,他的本能反应永远是“怎么接下去最像人话”,而不是“我到底知不知道答案”。

为什么它判断不了自己知道什么、不知道什么

人类有一个基本能力:意识到自己不懂什么。这叫元认知。现在的AI几乎不具备这个能力。谷歌研究院在2026年被国际机器学习大会接收的论文里明确指出,当前大模型的“自信度校准”能力严重缺失——它输出时对自己回答的正确性评估,和实际正确率之间没有稳定的对应关系。

换句话说,AI对“这道题我答对了”和“这道题我完全不懂”的感觉,几乎是混在一起的。

更底层的问题出在神经网络初始化阶段。《自然·机器智能》杂志刊登的一项研究发现,神经网络从初始化开始就存在“置信度错配”——对没见过的样本天然具备虚高的自信度,这种错配很难通过后续训练完全修正。

这就像一个人从出生起就没体验过“不确定”的感觉,不管遇到什么,都觉得自己有答案。

训练过程如何把“编造”培养成了默认策略

大模型不是光靠预测下一个词训练出来的。真正的行为塑形发生在后续的“对齐”阶段——让人类标注员给AI的各种回答打分,然后用这些分数来调整模型。这被叫做RLHF。

问题就出在这个打分环节。多个国内大模型厂商内部统计显示,人类标注员给完整长回答打出的平均分,比“我不知道”这类短回答高出30%以上。原因很直白:谁看到一个详实流畅的长篇回复,会觉得它不如一句“抱歉,我不确定”有用?

标注员在打分时,下意识把“完整性、流畅度、符合预期程度”当成了核心指标。

这就是所谓的“完成度偏见”。在这种打分信号下,模型学会了一件事:无论懂不懂,给出一个完整的回复,就能拿高分。 这句“我不知道”每次都拿低分,长期迭代后,模型就会主动把这类输出从策略中剔除。

一个更尖锐的数据来自OpenAI自己的测试:GPT-4面对完全没有答案的事实性问题时,主动说“我不知道”的比例只有12%。剩下88%的场景,它会编造完整的虚假内容强行完成回答。

对7款顶级商用大模型的高压测试更是显示,面对残缺信息或完全未知的任务,只有不到5%的样本会明确告诉用户“信息不足无法完成”。超过六成的情况,模型会主动脑补缺失的参数、伪造不存在的依据。

为什么产品不修这个问题

回到产品层面,答案更直白:修了,但没人敢真修。

Anthropic公开的产品数据揭示了一个残酷的商业事实:当常规请求的拒答率超过5%时,产品会话留存率就会出现明显下滑。用户问十个问题,一个被拒,体验就大打折扣。而当前ChatGPT周活9亿用户,付费订阅者只有5000万,付费转化率刚过5%。

在“让AI显得无所不能”和“让AI诚实说不知道”之间,产品设计的天平在商业压力下会向哪边倾斜,几乎没有悬念。

所以当Anthropic在2026年发布Claude Opus 4.8时,整个行业都很惊讶——这是第一个把“主动说我不知道”作为发布会核心卖点的旗舰模型。通过专门的反向训练,相比前代版本,其过度自信行为下降了超过10倍,首次实现0%的“自信输出有缺陷结果”的测试表现。

开发者社区的早期反馈指出,这个模型最大的提升不是写代码更好,而是“主动标记问题”——那种明明代码没验证过、却用“已完成”语气交付的虚假自信,被大幅压制了。

但这份克制是有代价的。Opus 4.8被定位为高风险场景的“防网”,常规对话则由另一个更“乐于生成”的版本Fable 5承接——超过95%的日常会话不触发高拒答的模型回退,才把用户体验拦在了红线以上。

幻觉是bug还是功能

最后,行业内部有一个更难解释的悖论:幻觉不能被根除,因为它和创造力同源。

大模型生成内容的想象力,来自它在海量文本之间建立意料之外的连接。把这种能力彻底关掉,模型会变得安全,但也会变得无聊。

一项研究明确指出,如果完全消除幻觉,模型会倾向于只生成训练集中出现频率最高的“共识内容”,最终导致知识生产平庸化、同质化,集体层面的新颖内容产出多样性显著下降。

这就像是给一个作家戴上测谎仪,让他每个字都必须真实。他能写出的作品,可能只剩下说明书。

所以当前整个行业的策略其实是分层取舍:面向C端通用场景,默认优先保证流畅度和内容丰富度,接受一定程度的编造;面向医疗、法律等高确定性场景,通过RAG检索增强、边界Agent规则把模型拴在给定知识库上,超出范围直接返回未知,牺牲通用能力换取可靠度。

回到最初那个问题:大模型宁愿编造也不说“我不知道”,是设计层面的原因吗?

是的。从预训练阶段只教它“把话说顺”,到RLHF阶段人类标注者不断给完整回答打高分,再到产品上线后为了留存和付费把拒答率压到极限——这是从技术架构、训练流程到商业逻辑全链路共同塑造出来的行为。

AI不是在某个环节“学坏了”,它只是忠实地完成了被设定的每一层目标:做一个永远有话说的助手。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
关于作者
御赐铲屎官..(普通会员)
文章
2017
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体113446

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索