> 自媒体 > (AI)人工智能 > 人类喜讯,GPT-4变笨!错误率暴涨40倍,数学能力断崖式下跌
人类喜讯,GPT-4变笨!错误率暴涨40倍,数学能力断崖式下跌
来源:头部科技
2023-07-30 16:07:58
689
管理

哎呀,真是做人难,做机器人难,做著名机器人更难。‍‍‍‍

论文实锤6月GPT-4降智,3个月时间不进反退

GPT-4在哪些方面降智了呢?

首先是求解数学问题。

在判定一个数是否是质数上的问题上,2023年3月GPT-4 的准确率为97.6%,到了6月份,在这些相同的问题上GPT-4的准确率只剩2.4%。

而此前表现拉胯的GPT-3.5,从三月份7.4%的准确度暴涨到 86.8%。

研究人员推测,这可能是因为GPT-4 在2023年6月增加了更强的安全机制,而GPT-3.5则放松了。

生成代码

研究人员还发现,从2023年3月到6月,GPT-4 能够直接运行的代码比例减少了。

如图所示,GPT-4在2023年3月的版本有超过50%的代码是可运行的,但在2023年6月的版本只有10%。GPT-3.5也有相同的趋势。

研究人员猜测导致可运行代码比例下降的一个原因可能是2023年6月的版本会在代码中添加一些多余的非代码文本。

GPT-4在2023年3月和6月的版本生成的代码基本相同,但有两处区别,一是2023年6月的版本在代码前后加了“‘python”和“‘”。

二是2023年6月的版本加了一些注释。这些变化看似微小,但多出来的三引号却使得代码无法运行。并且,这个问题在把LLM生成的代码集成到更大的软件项目中时更难发现。

视觉推理

在视觉推理上,研究人员发现GPT-4和GPT-3.5的表现都没有明显提高。而且它们在两个版本之间的回答重复率很高,达到90%。

这些服务的总体准确率也很低:GPT-4是27.4%,GPT-3.5是12.2%。值得注意的是,更新的LLM并不一定能生成更好的结果。

有时候,GPT-4在2023年6月的版本会在2023年3月的版本能答对的问题上出错。

例如,测试数据来自ARC数据集,要求生成一个3×3的网格,用数字的二维数组表示网格的颜色。

GPT-4在2023年3月的版本生成了正确的网格,但在2023年6月的版本却生成了错误的网格。

GPT-4为什么变笨了?OpenAI回应

按理来说,经过三个月的发展,GPT-4的实力应该突飞猛进,但为什么降智了呢?

网上流传了很多猜测。例如,OpenAI可能采取了成本削减措施

一位网友指出,GPT-4的运行成本很高,他怀疑OpenAI开始限制使用量,比如从原来每3小时可以发送100条信息降到现在的25条。

他还怀疑OpenAI是否让GPT-4不再对多个候选答案进行评估,而是直接给出最快的答案。这样做可以缩短决策时间,降低计算成本,但也会导致回答质量下降。

不过虽然论文本身没有直接回答GPT-4为什么变笨,但研究人员用 longitudinal drifts 纵向漂移来描述模型能力随时间变化而不稳定的现象。

直白点说,OpenAIOpenAI并不是故意让模型变笨来节省成本!相反,它似乎也无法控制模型能力的稳定性和提升速度。

而OpenAI回应也暗示了GPT-4在一些任务的表现可能下降了。

不过近期GPT-4虽然处于风口浪尖上,ChatGPT的上新速度却一直没减缓。

今日,OpenAI又官宣了ChatGPT自定义指令(Custom instructions)新功能。

和指令集、代码解释器一样,自定义指令也是 Plus 用户专属功能,在设置中启用即可在 GPT-4 模型调用。

开启后,你可以给ChatGPT一个固定的指令,让它记住或扮演某个角色,然后按照你的要求生成内容。

这样,你就不用每次在Prompt前加上一堆限制条件,ChatGPT可以完全遵循你的指令。

比如,你可以让它扮演教师,按照你的需求设计课程,或者让它教你Python编程,或者让它做你的营养师,给你合理的食谱和购物清单。

可以发现,尽管GPT-4在一些任务上的表现有所下降,但这并不意味着它失去了其价值和潜力。相反,它正在以另一种方式进化。

如果您有什么想说的,欢迎屏幕前你们在评论区留言讨论!我们将为点赞、评论、关注的同学们送上红包不限量哟~

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
《飞驰人生》片尾为何谢王思聪?不止借车库,千万跑车全是真家伙..
提起《飞驰人生》,不少人都记得片尾字幕里王思聪的名字,却鲜少有人知道..
中国古代的顶级“超跑”,如今全球仅剩六千匹!汗血宝马是啥样?..
在历史的长河中,骏马总是与英雄、战争和传奇紧密相连,而对于我们中国人..
法拉利296 Challenge Stradale路试曝光:赛道版公路跑车即将到来..
【网通社快报】法拉利被拍到正在测试一款重度伪装的原型车,外观酷似赛道..
10款你应该现在就入手的跑车,趁它们还没成为经典款!..
整备质量马力扭矩布局2195磅138马力126磅英尺中置引擎,后轮驱动MR-S 是..
消息称保时捷下月推911 GT3 Cabriolet敞篷跑车:折叠软顶..
IT之家 2 月 24 日消息,汽车媒体 thesupercarblog 于 2 月 22 日发布博..
新能源汽车出海2.0:从“卖车”到“建生态”
文 | 惊蛰研究所,作者|芒种2007年,华语女子团体S.H.E的一首《中国话》..
汽车能“乘火车”返乡了!订单火爆→
今年春运,“12306托运汽车订单火爆”的话题冲上热搜。汽车“坐”着火车..
湖北造飞行汽车来了!单价或50万元以内,市民可以像开汽车一样开“飞车”..
极目新闻记者 黄忠 陈倩 杨绍杭 王俐燃 刘中灿像车,又像飞机,能垂直起..
紧急召回!近30万辆汽车,吉林车主快自查!
国家市场监督管理总局网站2月9日发布上海蔚来汽车有限公司的汽车召回信息..
关于作者
加勒比海盗..(普通会员)
文章
1901
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103523

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索