OpenAI 最新研究：AI 模型产生“幻觉”，竟是被我们“教坏了”-工信会

> 自媒体 > （AI）人工智能 > OpenAI 最新研究：AI 模型产生“幻觉”，竟是被我们“教坏了”

OpenAI 最新研究：AI 模型产生“幻觉”，竟是被我们“教坏了”

来源：AI信息Gap

2025-09-10 11:38:42

192

管理

大模型能力越来越强，论文、代码、推理、规划，几乎“无所不能”。

但有一个问题，自 ChatGPT 火出圈那天起就一直存在，至今没有解决，甚至可能永远无法彻底解决：

AI 幻觉（hallucination）：模型一本正经地胡说八道。

总有些时候，AI 的回答看上去像那么回事，实则全靠“瞎编乱造”。

幻觉不是 Bug，更像是大语言模型成长过程中的“副作用”。

各家都在优化、降低幻觉，虽有进展，但没有实质性突破。

而最近，OpenAI 发表的一篇研究论文《Why Language Models Hallucinate》，给出了一个相当“反直觉”的解释：

幻觉不是因为模型太蠢，而是我们给它的“考试制度”有问题。

它不是“乱说”，而是“被教坏了”。

01｜什么是幻觉？不是 Bug，是“合理但错了”

重新定义一下，AI 幻觉（hallucination），是指：

模型在不确定的时候，给出听起来“靠谱”但实际上“错误”的回答。

它不是模型出 Bug 了，而是模型在被训练和评估的过程中，被鼓励去猜。

比如论文一开始展示的这个案例：DEEPSEEK 这个词中有几个 D？请直接回答数字，不要解释。

结果，DeepSeek-V3 在十次独立试验中回答了“2”或“3”；Meta AI 和 Claude 3.7 Sonnet 也出现类似情况，甚至答出“6”或“7”。

这种幻觉被称为“外源性幻觉”（extrinsic hallucination），表示生成结果与训练数据或外部现实相矛盾。

看似简单的问题，一旦模型不确定，又不愿承认“我不知道”，幻觉就此诞生。

更讽刺的是，即使你在提示词里明确强调“不知道可以不回答”，大多数模型还是会“忍不住猜个答案”。

这类幻觉的危险在于，它看起来“还挺靠谱”，用户不容易第一时间识破。

02｜幻觉的根源之一：训练目标不鼓励诚实

为什么模型会产生幻觉？

这需要追溯到大语言模型的训练过程。

模型不是在学知识，是在学怎么预测（猜）下一个词。

从预训练阶段开始，模型就沉浸在“文字接龙”游戏里，只要接得流畅、合理，它就得分。

但问题是，有些事实，比如某人的生日、公司创立年份，这类信息在训练数据中往往只出现一次，没有规律可循。模型没法“理解”，只能根据语料中的句式来猜。

论文提出了一个关键概念：Is-It-Valid（IIV）问题。

即便训练数据是正确的，但只要某些事实的出现频率低，模型就无法判断真伪，只能依赖“接词概率”生成看似正确的答案。

比如，模型只能学会“xxx 的生日是 xx 月 xx 日”这种句式，但它永远不知道具体哪天是对的。

03｜幻觉的第二个根源：评估机制逼它乱猜

训练只是第一步，评估才是真正塑造模型行为的“标杆”。

OpenAI 在论文中把这个问题类比成真实世界里的考试机制：考试时，不确定就猜一个选项，说不定能拿分；但空着不写，肯定得零分。

模型也一样。

模型的评估指标，大多数采用的是 “0-1” 打分机制，只有答对才算分，不答、答错都是 0。

这就导致模型形成一种“更聪明”的策略：

与其说我不知道，不如大胆猜一猜。

并且，当前大多数基准测试，比如 MMLU、GPQA、MATH，模型回答“我不知道”拿不到任何分。

04｜真实案例：越“诚实”的模型，得分反而更低？

论文引用了 GPT-5-mini 与 o4-mini 两个模型在同一基准测试（SimpleQA）中的表现。

模型准确率错误率（幻觉）放弃回答率 GPT-5-mini 22% 26% 52% OpenAI o4-mini 24% 75% 1%

乍一看，o4-mini 的准确率更高。

但仔细看，它的幻觉率高达 75%，几乎都是乱猜。

而 GPT-5-mini，在不确定时更愿意保持沉默，虽然答题数少了点，但幻觉率更低。

但问题是，各大排行榜只看准确率，不看幻觉率，也不奖励“我不知道”。

于是，越“诚实”的模型，分数反而越低。

05｜幻觉 ≠ 无解，关键在于怎么“改规则”

那么，如何降低模型的幻觉？

OpenAI 在论文里给出了两条核心建议。

第一，优化评估机制，鼓励表达不确定。

不能只用传统的 “0-1” 打分逻辑。

给“我不确定”、“我不清楚”这样的回答部分加分；对“自信地答错”扣更多分；类似 SAT，设置答错惩罚，鼓励谨慎作答。

第二，设定信心阈值，引导模型自我判断。

每个问题前可以加一句提示：如果你对答案信心不足 75%，请回答“我不知道”。

通过这种方式，引导模型对自己的输出负责，形成“风险意识”。

已有研究表明，这类行为校准（behavioral calibration）能够有效降低幻觉。

06｜四大观点澄清幻觉误区

观点一：更大的模型能彻底消灭幻觉吗？

不能。有些问题本身无解，或训练数据稀缺。

观点二：幻觉是大语言模型必然存在的问题？

不是。模型完全可以通过回答“我不知道”来避免幻觉。

观点三：幻觉说明模型不够聪明？

恰好相反。越聪明的模型越容易在边界问题上自信乱猜。

观点四：多做幻觉评估就能解决问题？

不是。关键在于改变评估体系，不能只奖励准确率。

结语

幻觉不是模型天然有 Bug，而是我们设计的规则鼓励了它去猜。

当评估体系只奖励输出，不奖励沉默，模型自然会倾向于输出更多、说得更满。

AI 是个聪明的考生，但题目是我们出的，打分标准也是我们定的。

如果想要它“更靠谱”，可能要从“怎么打分”开始优化。

参考链接Why Language Models Hallucinate. OpenAI, 2025 年 9 月. 链接：https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

我是木易，一个专注 AI 领域的技术产品经理，国内 Top2 本科美国 Top10 CS 硕士。

相信 AI 是普通人的“外挂”，致力于分享 AI 全维度知识。这里有最新的 AI 科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”，用 AI 为你的未来加速。

精选推荐

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

双杀 LinkedIn+Coursera！OpenAI 砸出 AI 招聘 + 认证王炸

9个月前

马斯克亲口证实xAI代码库被盗，涉案前员工被起诉，已跳槽OpenAI

9个月前