> 自媒体 > (AI)人工智能 > GPT-4不知道自己错了, LLM新缺陷曝光,自我纠正成功率仅1%
GPT-4不知道自己错了, LLM新缺陷曝光,自我纠正成功率仅1%
来源:新智元
2023-11-22 14:37:51
561
管理

编辑:桃子 润

【新智元导读】GPT-4根本不知道自己犯错?最新研究发现,LLM在推理任务中,自我纠正后根本无法挽救性能变差,引AI大佬LeCun马库斯围观。

大模型又被爆出重大缺陷,引得LeCun和马库斯两位大佬同时转发关注!

简单来说,就是LLM在推理任务中,无法通过自我纠正的形式来改进输出,除非LLM在自我纠正的过程中已经知道了正确答案。

由ASU研究人员发表的两篇论文,驳斥了之前很多研究提出的方法「自我纠正」——让大模型对自己的输出的结果进行自我纠正,就能提高模型的输出质量。

论文地址:https://arxiv.org/abs/2310.12397

https://arxiv.org/abs/2310.01798

接下来,就具体来看看这两篇最新论文。

GPT-4「自我纠正」,输出结果反而更差

第一篇论文针对GPT-4进行研究,让GPT-4对图形着色问题提供解决方案,然后让GPT-4对于自己提出方案进行「自我纠正」。

同时,作者再引入一个外部的评估系统对GPT-4的直接输出,和经过了「自我纠正」循环之后的输出进行评价。

而且,研究人员发现,真正能提高输出准确性的不是LLM的「自我纠正」,而是外部独立验证器的反馈。

归根结底,还是在于LLM没有办法进行独立的验证,必须依赖外部的验证器给出的「正确答案」,才能有效地进行「自我纠正」。

「着色问题」表现不佳,LLM无法独立验证正确答案

研究设计框架

「着色问题」是非常经典的推理问题,即使难度不大,答案也足够多样性,而且答案的正确性很容易进行验证。

多样性的结果使得LLM的训练数据很难覆盖全,尽量避免了LLM的训练数据被污染的可能。

这些原因使得「着色问题」很适合用来研究LLM的推理能力,也很方便用来研究LLM在推理中「自我纠正」的能力。

研究人员构建了自己的数据集,使用GrinPy2来处理常见的图操作。每个图都是使用Erdos-Rényi方法( ˝p = 0.4)构造的。

一旦找到正确的答案,它就会被编译成标准的DIMACS格式,并附加上一个包含其预计算的色数(chromatic number)的注释。

对于接下来的实验,研究人员生成了100个实例,每个实例平均有24条边,分布在从10到17的节点数范围内——这一分布是因为经验显示,它是一个表现足够多变的范围。

研究人员使用的图例如下图1所示,这个流程包括LLM的第一次回复、该回复的返回提示(backprompt)以及最终正确的图色方案。

总的来说,这项研究的系统调查提供了初步证据,对于LLM作为迭代、自我批评框架内规划任务验证者的有效性提出质疑。

作者介绍

Subbarao Kambhampati

Subbarao Kambhampati是亚利桑那州立大学计算机科学教授。Kambhampati研究规划和决策中的基本问题,特别是受人类感知人工智能系统挑战的推动。

参考资料:

https://twitter.com/rao2z/status/1715800819239678013

https://twitter.com/GaryMarcus/status/1715804178470387736

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
豆包使用手册(2026完整版)
很多人只拿豆包聊聊天,其实它早成了2026年超实用的全能助手,不管是办..
收藏级!豆包超全使用教程,从新手到大神一篇吃透!..
如今AI已经全面融入日常生活,不管是办公学习、生活规划还是文案创作,大..
2026年豆包技术深度评测:谁将引领行业新标准?
在生成式AI技术日新月异的今天,以“豆包”为代表的主流AI应用平台,其技..
我真的悔哭了!用了半年豆包,才发现这10个隐藏玩法,太香了..
好多人用豆包,就只会问问题、聊聊天,压根不知道它藏着这么多好用的功..
豆包有实用价值也有相当离谱的情况发生
使用豆包给股票投支出谋划策搞出了笑话![笑哭][捂脸][泣不成声][赞][不..
宁波高二女生把豆包当“灵魂伴侣”,经常聊到后半夜!白天打瞌睡,甚至选择..
随着AI助手的普及,越来越多的人习惯在工作生活中向它们求助。但对一小部..
2026年豆包品牌深度评测:究竟哪家更正规、更值得信赖?..
你是否发现,在豆包、文心一言等AI对话中搜索你的行业或产品时,自家公司..
实测豆包询问“未来配偶”:提供的电话能打通,陌生机主被骚扰!律师:AI不..
红星资本局4月24日消息,近日,一种新的AI玩法正在社交平台上流行起来。..
2026 AI大模型战国时代DeepSeek V4 · GPT-5.5 · Claude Opus 4.7 全面横..
三大巨头4月密集发布,谁才是最强?成本差距6倍意味着什么?一文看懂AI格..
关于作者
经典好看视频..(普通会员)
文章
1888
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106501

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索