> 自媒体 > (AI)人工智能 > GPT-4数学再提30分,代码解析器任督二脉被打开,数学能力登SOTA
GPT-4数学再提30分,代码解析器任督二脉被打开,数学能力登SOTA
来源:量子位
2023-08-26 15:45:05
731
管理

西风 发自 凹非寺

量子位 | 公众号 QbitAI

GPT-4数学能力还能更强!

新研究发现GPT-4代码解释器做题准确率与其使用代码的频率有关。

为此,研究人员提出新方法对症下药,直接将其数学能力拔至新SOTA:

在MATH数据集上,做题准确率从53.9%增加到了84.3%。

他们设计了3种不同的提示方法,限制GPT-4代码解析器使用代码的频率:

Prompt 1:完全不允许使用代码,输出完全依赖自然语言推理,禁止将代码合并到解决方案中。Prompt 2:只允许使用1次代码,也就是在生成解决方案时,只能在单个代码块内使用代码。Basic Prompt:没有限制,GPT-4代码解析器可以进行一系列推理步骤,每个步骤都可由文字 Python代码组成。

△MATH数据集中第712个中级代数问题。

CSV prompt:To solve the problem using code interpreter step by step, and please verify your answer using code interpreter.

通过上图这个例子可看出,在没有自我验证的情况下,模型生成了一个错误的答案。通过自我验证,模型纠正了错误并生成了正确的答案。

此外,鉴于CSV可以有效地验证问题的答案,研究人员又提出了验证引导加权多数投票(VW-voting)的方法,将自我验证结果集成到多数表决中,给予不同验证状态不同权重,使表决更可靠。

△在MMLU数据集上的表现

针对不同难度的题目(下图a)以及不同类型题目(下图b)的测试中,使用新方法后准确率都有了提升。

△每条曲线上的四个点分别对应于使用Prompt 1、Prompt 2、BasicPrompt、CSV Prompt得到的结果。

研究人员还发现GPT-4代码解析器的代码使用频率提高与准确率提高正相关。随着题目难度的增加,代码使用频率稳步上升。这说明在较难的数学问题上,更频繁地使用代码很重要。

此外,值得注意的是,尽管添加基于代码的自我验证可以提高每个单独题目类型的性能,但改进的程度也因题目类型而异,从7.6%到仅0.6%不等。

研究人员指出:

特别是几何问题的准确性仅提高了0.6%,原本GPT-4代码解析器的准确性也只有54.0%,在各个题目类型中属于较低的。这种差异可能是因为解决几何问题通常需要多模态,超出了本文研究范围。

论文传送门:https://arxiv.org/abs/2308.07921

参考链接:[1]https://twitter.com/_akhaliq/status/1691734872329699813?s=20[2]https://x.com/justfannet/status/1691983780498600376?s=46&t=iTysI4vQLQqCNJjSmBODPw

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
第五代五菱宏光MINIEV官图,更可爱,还是四门
五菱品牌最畅销的车型是五菱宏光大面包,而最畅销的纯电新能源,那必然是..
五菱神车为何能畅销全国
五菱神车畅销全国,核心在于它总能精准捕捉不同人群的真实需求,并用可靠..
质选车:五菱星光560以全能实力后来者居上
外观方面,星光560采用全新的设计语言,其中燃油版和插混版配备星阵立体..
五菱2026新车矩阵!4款核心车型逐个看
凭借“人民的代步车”理念站稳市场的五菱,在2026年将持续发力,首批曝光..
要来了!第五代五菱宏光MINIEV四门版官图发布,提供三种新车色..
2月26日,五菱品牌正式发布了第五代宏光MINIEV四门版车型的官图及部分产..
上汽通用五菱去年销量大涨 但负债率高达85%!需要担心吗?..
运营商财经网 李广艳/文在过去一年中,上汽通用五菱市场表现出色,已经超..
2026五菱全系新车前瞻:MINIEV大改款,搭华为智驾的华境S要来了..
“想买代步车接送娃,现在买还是等等?” 菲菲看完五菱2026年新车规划后..
五菱星光S家庭实用性:大空间、低能耗、真省心,家用SUV务实之选..
对于普通家庭而言,日常用车的核心需求大多围绕空间表现、乘坐舒适、使用..
五菱晴空H冬季实测305公里,北方代步车能选吗?
五菱晴空H在北方作为代步车是一个务实的选择,尤其是其冬季实测续航表现..
关于作者
婆罗花开(普通会员)
文章
1920
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105536

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索