> 自媒体 > (AI)人工智能 > 为何ChatGPT总胡说?OpenAI:因为我们一直对它“应试教育”,蒙对答案能得分
为何ChatGPT总胡说?OpenAI:因为我们一直对它“应试教育”,蒙对答案能得分
来源:红星新闻
2025-09-18 09:20:35
185
管理

在人工智能的讨论中,“幻觉”一直是最受关注的问题之一。所谓幻觉,是指AI给出的回答听起来合情合理,但实际上完全错误。现行的大多数AI基准测试采用二元评分方式:答对得分,答错或说“不知道”都不得分。结果就是,如果模型选择承认不确定,它的表现看起来更差;相反,哪怕它编造答案,只要碰巧答对,就会被当作“更好”。这种机制无形中“奖励”了自信的胡编乱造,却让诚实吃亏。

概念图 据图虫创意

原因

“语言模型被优化为擅长应试,

进行猜测会提高考试表现”

上周,ChatGPT的研发公司OpenAI发布了一项名为《语言模型产生幻觉的原因》的研究,首次系统地指出幻觉并非偶然,而是源于模型本身的结构性机制。研究进一步强调,问题的根源在于评估体系:它的机制就是在奖励猜测,从而助长了幻觉的滋生。

研究解释说,当“我不知道”只能得零分,而一个貌似合理的猜测却有机会得到满分时,模型的最优策略就变成了尽量去猜。这些模型并不是被刻意编程去撒谎,而是因为“虚张声势”会在现有机制下获得更高的分数。正如OpenAI所说:“幻觉之所以持续存在,是因为大多数评估的打分方式。语言模型被优化为擅长应试,而在不确定时进行猜测会提高考试表现。”

学生考试(创意图片,据图虫创意)

这就像学校考试。如果你不知道答案,大概也会蒙一把,希望碰巧答对。这正是大型语言模型(LLMs)被训练去做的事情。它们始终处于“考试模式”:沉默会被惩罚,而猜测则显得聪明。OpenAI的研究人员总结说:“人类是在生活的磨练中学会了表达不确定性的价值,而语言模型却主要通过那些惩罚不确定性的考试来接受评估。”换句话说,我们一直在把AI训练成“永远的应试者”,它们被优化的目标是考试成绩,而不是可信度。

修正

调整评估标准

不能“不回答就惩罚”

OpenAI还公布了其模型的基准测试结果。最新的推理模型GPT-5 Thinking Mini的准确率为22%,略低于上一代o4-Mini模型的24%。不过,GPT-5 的弃答率(即回答“我不知道”)达到52%,错误率为26%;相比之下,o4-Mini的弃答率仅为1%,但错误率却高达75%。o4-Mini更频繁的猜测行为同时增加了正确和错误的回答。研究人员指出:“大多数评分体系按照准确率对模型进行排名,但错误比弃答的后果更严重。”

针对这一问题,OpenAI提出的解决方案不是从头重建模型,而是调整评估标准。研究人员认为,“根本性的问题在于,大量评估方法之间缺乏一致性。现有的主要评估方式必须进行调整,避免在模型不确定时惩罚其选择不作答”。该公司在另一篇文章中补充说:“那些广泛使用的、基于准确率的评估需要更新,它们的评分方式必须阻止模型去猜。如果常用的评测体系继续奖励侥幸的猜测,模型最终就会越来越依赖这种策略。”

这是一个细微却关键的转变。多年来,行业一直在竞相让聊天机器人更快、更聪明、更流畅,但这些特质并不等于值得信赖。真正的挑战在于,如何打造能够在知识与谦逊之间找到平衡的系统。通过调整评估方式,OpenAI希望训练出更少依赖“装懂混过去”的模型,而是能够给出更稳健、可信回应的模型。毕竟,当用户向AI寻求医疗建议或理财指导时,最不希望的就是听到一个听起来无比自信却完全虚构的答案。而在一个常被指责为“过度炒作”和“半真半假”的行业里,这种对减少虚张声势的呼吁,或许才是迄今为止最激进的想法。

红星新闻记者 王雅林 实习记者 杨诗柔

编辑 邓旆光

(下载红星新闻,报料有奖!)

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
《飞驰人生》片尾为何谢王思聪?不止借车库,千万跑车全是真家伙..
提起《飞驰人生》,不少人都记得片尾字幕里王思聪的名字,却鲜少有人知道..
中国古代的顶级“超跑”,如今全球仅剩六千匹!汗血宝马是啥样?..
在历史的长河中,骏马总是与英雄、战争和传奇紧密相连,而对于我们中国人..
法拉利296 Challenge Stradale路试曝光:赛道版公路跑车即将到来..
【网通社快报】法拉利被拍到正在测试一款重度伪装的原型车,外观酷似赛道..
10款你应该现在就入手的跑车,趁它们还没成为经典款!..
整备质量马力扭矩布局2195磅138马力126磅英尺中置引擎,后轮驱动MR-S 是..
消息称保时捷下月推911 GT3 Cabriolet敞篷跑车:折叠软顶..
IT之家 2 月 24 日消息,汽车媒体 thesupercarblog 于 2 月 22 日发布博..
新能源汽车出海2.0:从“卖车”到“建生态”
文 | 惊蛰研究所,作者|芒种2007年,华语女子团体S.H.E的一首《中国话》..
汽车能“乘火车”返乡了!订单火爆→
今年春运,“12306托运汽车订单火爆”的话题冲上热搜。汽车“坐”着火车..
湖北造飞行汽车来了!单价或50万元以内,市民可以像开汽车一样开“飞车”..
极目新闻记者 黄忠 陈倩 杨绍杭 王俐燃 刘中灿像车,又像飞机,能垂直起..
紧急召回!近30万辆汽车,吉林车主快自查!
国家市场监督管理总局网站2月9日发布上海蔚来汽车有限公司的汽车召回信息..
关于作者
泡沫人生(普通会员)
文章
1849
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103523

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索