GPT-4面对未知88%却在编造，不说不知道是设计层面的原因吗？-工信会

> 自媒体 > （AI）人工智能 > GPT-4面对未知88%却在编造，不说不知道是设计层面的原因吗？

GPT-4面对未知88%却在编造，不说不知道是设计层面的原因吗？

来源：法理深读

2026-06-14 14:44:41

管理

2022年，一位资深律师用ChatGPT准备一份法庭文件。他让AI找到相关的过往判例。AI回复了六七个案例，每个都带着精确的案号、当事人姓名、判决日期和法律条文引用。格式和语气都与专业法律文书无异。

律师使用ChatGPT检索法庭相关判例内容

这些案例全是虚构的。

这就是大模型“幻觉”的威力——它不是在撒谎，而是在完成工作。要理解为什么大模型宁愿编造也不说“不知道”，得先看懂大模型在干什么。它的核心任务只有一个：给定前面一串文字，预测下一个最合理的词。

问它“李白写过哪些关于月球背面的诗”，它不会判断这个问题是否荒谬、是否触及自己的知识边界，它只是在做一道续写题——前面出现这些字了，后面什么字接上去最通顺。于是它能编出一首押韵工整、风格接近李白的七言绝句，毫不费力。

这就像是让一个人只学会了一件事：把话说顺。不管问什么，他的本能反应永远是“怎么接下去最像人话”，而不是“我到底知不知道答案”。

为什么它判断不了自己知道什么、不知道什么

人类有一个基本能力：意识到自己不懂什么。这叫元认知。现在的AI几乎不具备这个能力。谷歌研究院在2026年被国际机器学习大会接收的论文里明确指出，当前大模型的“自信度校准”能力严重缺失——它输出时对自己回答的正确性评估，和实际正确率之间没有稳定的对应关系。

换句话说，AI对“这道题我答对了”和“这道题我完全不懂”的感觉，几乎是混在一起的。

更底层的问题出在神经网络初始化阶段。《自然·机器智能》杂志刊登的一项研究发现，神经网络从初始化开始就存在“置信度错配”——对没见过的样本天然具备虚高的自信度，这种错配很难通过后续训练完全修正。

这就像一个人从出生起就没体验过“不确定”的感觉，不管遇到什么，都觉得自己有答案。

训练过程如何把“编造”培养成了默认策略

大模型不是光靠预测下一个词训练出来的。真正的行为塑形发生在后续的“对齐”阶段——让人类标注员给AI的各种回答打分，然后用这些分数来调整模型。这被叫做RLHF。

问题就出在这个打分环节。多个国内大模型厂商内部统计显示，人类标注员给完整长回答打出的平均分，比“我不知道”这类短回答高出30%以上。原因很直白：谁看到一个详实流畅的长篇回复，会觉得它不如一句“抱歉，我不确定”有用？

标注员在打分时，下意识把“完整性、流畅度、符合预期程度”当成了核心指标。

这就是所谓的“完成度偏见”。在这种打分信号下，模型学会了一件事：无论懂不懂，给出一个完整的回复，就能拿高分。这句“我不知道”每次都拿低分，长期迭代后，模型就会主动把这类输出从策略中剔除。

一个更尖锐的数据来自OpenAI自己的测试：GPT-4面对完全没有答案的事实性问题时，主动说“我不知道”的比例只有12%。剩下88%的场景，它会编造完整的虚假内容强行完成回答。

对7款顶级商用大模型的高压测试更是显示，面对残缺信息或完全未知的任务，只有不到5%的样本会明确告诉用户“信息不足无法完成”。超过六成的情况，模型会主动脑补缺失的参数、伪造不存在的依据。

为什么产品不修这个问题

回到产品层面，答案更直白：修了，但没人敢真修。

Anthropic公开的产品数据揭示了一个残酷的商业事实：当常规请求的拒答率超过5%时，产品会话留存率就会出现明显下滑。用户问十个问题，一个被拒，体验就大打折扣。而当前ChatGPT周活9亿用户，付费订阅者只有5000万，付费转化率刚过5%。

在“让AI显得无所不能”和“让AI诚实说不知道”之间，产品设计的天平在商业压力下会向哪边倾斜，几乎没有悬念。

所以当Anthropic在2026年发布Claude Opus 4.8时，整个行业都很惊讶——这是第一个把“主动说我不知道”作为发布会核心卖点的旗舰模型。通过专门的反向训练，相比前代版本，其过度自信行为下降了超过10倍，首次实现0%的“自信输出有缺陷结果”的测试表现。

开发者社区的早期反馈指出，这个模型最大的提升不是写代码更好，而是“主动标记问题”——那种明明代码没验证过、却用“已完成”语气交付的虚假自信，被大幅压制了。

但这份克制是有代价的。Opus 4.8被定位为高风险场景的“防网”，常规对话则由另一个更“乐于生成”的版本Fable 5承接——超过95%的日常会话不触发高拒答的模型回退，才把用户体验拦在了红线以上。

幻觉是bug还是功能

最后，行业内部有一个更难解释的悖论：幻觉不能被根除，因为它和创造力同源。

大模型生成内容的想象力，来自它在海量文本之间建立意料之外的连接。把这种能力彻底关掉，模型会变得安全，但也会变得无聊。

一项研究明确指出，如果完全消除幻觉，模型会倾向于只生成训练集中出现频率最高的“共识内容”，最终导致知识生产平庸化、同质化，集体层面的新颖内容产出多样性显著下降。

这就像是给一个作家戴上测谎仪，让他每个字都必须真实。他能写出的作品，可能只剩下说明书。

所以当前整个行业的策略其实是分层取舍：面向C端通用场景，默认优先保证流畅度和内容丰富度，接受一定程度的编造；面向医疗、法律等高确定性场景，通过RAG检索增强、边界Agent规则把模型拴在给定知识库上，超出范围直接返回未知，牺牲通用能力换取可靠度。

回到最初那个问题：大模型宁愿编造也不说“我不知道”，是设计层面的原因吗？

是的。从预训练阶段只教它“把话说顺”，到RLHF阶段人类标注者不断给完整回答打高分，再到产品上线后为了留存和付费把拒答率压到极限——这是从技术架构、训练流程到商业逻辑全链路共同塑造出来的行为。

AI不是在某个环节“学坏了”，它只是忠实地完成了被设定的每一层目标：做一个永远有话说的助手。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

GPT-5.5 性能三角深度拆解：延迟、吞吐与成本如何权衡

1小时前

GPT-5.5 和 GPT-4 差距到底有多大？一次偏实战的基准测试对比

1小时前