GPT-4不知道自己错了， LLM新缺陷曝光，自我纠正成功率仅1%-工信会

> 自媒体 > （AI）人工智能 > GPT-4不知道自己错了， LLM新缺陷曝光，自我纠正成功率仅1%

GPT-4不知道自己错了， LLM新缺陷曝光，自我纠正成功率仅1%

来源：新智元

2023-11-22 14:37:51

566

管理

编辑：桃子润

【新智元导读】GPT-4根本不知道自己犯错？最新研究发现，LLM在推理任务中，自我纠正后根本无法挽救性能变差，引AI大佬LeCun马库斯围观。

大模型又被爆出重大缺陷，引得LeCun和马库斯两位大佬同时转发关注！

简单来说，就是LLM在推理任务中，无法通过自我纠正的形式来改进输出，除非LLM在自我纠正的过程中已经知道了正确答案。

由ASU研究人员发表的两篇论文，驳斥了之前很多研究提出的方法「自我纠正」——让大模型对自己的输出的结果进行自我纠正，就能提高模型的输出质量。

论文地址：https://arxiv.org/abs/2310.12397

https://arxiv.org/abs/2310.01798

接下来，就具体来看看这两篇最新论文。

GPT-4「自我纠正」，输出结果反而更差

第一篇论文针对GPT-4进行研究，让GPT-4对图形着色问题提供解决方案，然后让GPT-4对于自己提出方案进行「自我纠正」。

同时，作者再引入一个外部的评估系统对GPT-4的直接输出，和经过了「自我纠正」循环之后的输出进行评价。

而且，研究人员发现，真正能提高输出准确性的不是LLM的「自我纠正」，而是外部独立验证器的反馈。

归根结底，还是在于LLM没有办法进行独立的验证，必须依赖外部的验证器给出的「正确答案」，才能有效地进行「自我纠正」。

「着色问题」表现不佳，LLM无法独立验证正确答案

研究设计框架

「着色问题」是非常经典的推理问题，即使难度不大，答案也足够多样性，而且答案的正确性很容易进行验证。

多样性的结果使得LLM的训练数据很难覆盖全，尽量避免了LLM的训练数据被污染的可能。

这些原因使得「着色问题」很适合用来研究LLM的推理能力，也很方便用来研究LLM在推理中「自我纠正」的能力。

研究人员构建了自己的数据集，使用GrinPy2来处理常见的图操作。每个图都是使用Erdos-Rényi方法（ ˝p = 0.4）构造的。

一旦找到正确的答案，它就会被编译成标准的DIMACS格式，并附加上一个包含其预计算的色数（chromatic number）的注释。

对于接下来的实验，研究人员生成了100个实例，每个实例平均有24条边，分布在从10到17的节点数范围内——这一分布是因为经验显示，它是一个表现足够多变的范围。

研究人员使用的图例如下图1所示，这个流程包括LLM的第一次回复、该回复的返回提示（backprompt）以及最终正确的图色方案。

总的来说，这项研究的系统调查提供了初步证据，对于LLM作为迭代、自我批评框架内规划任务验证者的有效性提出质疑。

作者介绍

Subbarao Kambhampati

Subbarao Kambhampati是亚利桑那州立大学计算机科学教授。Kambhampati研究规划和决策中的基本问题，特别是受人类感知人工智能系统挑战的推动。

参考资料：

https://twitter.com/rao2z/status/1715800819239678013

https://twitter.com/GaryMarcus/status/1715804178470387736

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

DiagrammerGPT：GPT-4主导的颠覆性双层文生图表模型

2023-11-22 14:38

用过GPT-4 Turbo以后，我们再也回不去了

2023-11-22 14:34

相关文章

2026赛季F1季前测试深度解析：法拉利单圈惊艳，梅赛德斯长跑强势..

第三名之争：迈凯伦 vs 红牛围场共识认为，法拉利和梅赛德斯已在领先集团..

V12引擎加持！改装版Datsun 240Z声浪媲美法拉利

【网通社快报】一辆搭载梅赛德斯-奔驰M120V12引擎的Datsun240Z近日引发关..

法拉利最便宜新敞篷车：Amalfi Spider三月首发

IT之家 2 月 19 日消息，汽车媒体 The Supercar Blog 昨日（2 月 18 日）..

法拉利Ferrari全家福

法拉利是世界顶级超跑代表，源自意大利，以赛道基因和极致性能著称。经典..

6.5 v12炸街，我终于懂了法拉利“纯血”的终极浪漫

法拉利purosangue63° 前门开启79° 后门开启劳斯莱斯式优雅，法拉利式性..

Luce只是其中之一法拉利今年有五款新车型亮相

据海外媒体报道称，法拉利2025年的利润正朝着正确的方向发展，订单已满到..

千匹马力、2.5秒破百！法拉利首款纯电Luce曝光

在内燃机领域拼搏数百年的法拉利正式的拥抱纯电赛道。2026年的2月份，法..

法拉利首款纯电车型Luce正式上市，融合经典设计与电动创新..

【网通社快报】法拉利近日正式推出品牌首款纯电动车Luce，引发行业广泛关..

更硬核的296：法拉利“特别版”新车谍照曝光，马力有望逼近700匹..

IT之家 2 月 16 日消息，博主 Derek Photography 公布了一辆伪装严密、外..

关于作者

经典好看视频..(普通会员)

文章

2040

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

2025/02/08

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

2025/02/09

05

AI 界黑马DeepSeek 超详细介绍

2025/02/09

标签云

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体114249

@2022 All Rights Reserved

浙ICP备19035174号-6 技术支持：千寻网络

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索