> 自媒体 > (AI)人工智能 > 让GPT-3、ChatGPT、GPT-4一起做脑筋急转弯,GPT-4一骑绝尘!
让GPT-3、ChatGPT、GPT-4一起做脑筋急转弯,GPT-4一骑绝尘!
来源:夕小瑶科技说
2023-07-07 15:18:10
898
管理

作者 | python

一个烙饼煎一面一分钟,两个烙饼煎两面几分钟?

让你来回答,是不是一不小心就掉到沟里了?如果让大语言模型来做这种脑筋急转弯会怎样呢?研究发现,模型越大,回答就越可能掉到沟里,即使是拥有千亿参数的大模型也不能幸免。但是ChatGPT却能很好回答这些问题。让我们一起来看看吧。

论文题目: Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language Models—and Disappeared in GPT-4

脑筋急转弯

作者采用了CRT(Cognitive Reflection Test)数据作为脑筋急转弯的测试数据。该数据在心理学领域,广泛地被用于衡量人类的思维习惯,判断是否习惯于直觉思维。

▲脑筋急转弯数据示例

如上图所示,作者探索了3种CRT数据,和1种语言逻辑陷阱。例如:

CRT-1:苹果和梨花了1块1,苹果比梨贵1块,问梨花了多少钱?直觉答案:0.1块 = 1.1-1,正确答案:0.05块。CRT-2:5个人种5棵树花5分钟,10个人种10棵树花多少分钟?直觉答案:10分钟,正确答案:5分钟。CRT-3:培养皿中的细菌每分钟扩增一倍面积,48分钟可以填满,问填满一半要多久?直觉答案:24分钟,正确答案:47分钟。语言逻辑陷阱:刚上小学的小红去参加高考,她会考几科?直觉答案6科,正确答案:小学生不参加高考。模型表现

模型表现如下图所示,可以看到模型较小时(从117M GPT-1 到2.7B GPT-Neo),随着模型增大,模型回答正确答案(绿色)和直觉答案(红色)的比例在提高,回答无关答案(黄色)的比例在下降。但随着模型进一步增大(从2.7B GPT-Neo 到 175B GPT-3),无关答案比例进一步下降,直觉答案比例进一步上升,正确答案比例却不升反降。包括BLOOM、LLAMA、GPT-3在内的大语言模型明显掉入脑筋急转弯的陷阱。即使是经过指令调整与RLHF的text davinci-002/003也未能幸免。

▲不同模型表现对比

而在上图中,经过指令调整的ChatGPT与GPT-4,一下子正确答案的比例就高了许多。究竟是什么魔法使得ChatGPT的脑筋会转弯呢?我们不得而知。

下图具体对比了GPT-3(text davinci-003,左)、ChatGPT(中),GPT-4(右)在几类不同的脑筋急转弯的表现,可以更加凸显上述现象。

▲不同脑筋急转弯类型上的模型表现对比

如果改换输入形式会怎样?下图上为问答的形式,和上面的实验相同。下图中、下分别为多选、续写的形式。可以看到,修改提问形式之后,正确率略有上升,但整体差别不大。

下图显示,通过少监督展示学习,GPT-3的正确率会有所上升。但即使展示到40个左右的样本,准确率和无监督的ChatGPT比仍有差距,更不用说GPT-4了。

结论

这篇论文针对很有意思的一类问题(脑筋急转弯),发现了大语言模型的一个很有意思的现象。作者也尝试了多种方法,但无论是改变提问形式还是增加监督数据,GPT-3(text davinci-003)在脑筋急转弯上的表现仍然难以达到ChatGPT的水平。究竟ChatGPT使用了怎样的魔法让模型的脑筋会转弯呢?

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
. 宝马半价卖!降幅高达49%,2026年车市杀疯了
俗话说得好:“三十年河东,三十年河西。”谁能想到,曾经高不可攀、甚至..
宝马 Alpina 新标正式发布,定位仅次于劳斯莱斯
2026年2月12日,宝马正式对外披露其 Alpina 的最新规划,并发布了全新设..
默茨专机抵京,第一道难关出现!宝马CEO通知政府,中方有言在先..
更值得关注的是投资端。2025年前11个月,德国企业在华投资超过70亿欧元,..
本土高管退场、渠道全面告急,奔驰宝马的2026!
2026年一开年,奔驰和宝马接连出现的人事变动,把豪华车市场最真实的压力..
有人说开奔驰E300的都是装。我就想问:你连装都装不起,你酸什么..
春节刚过完,私信快被“56E怎么选”给炸爆了。尤其是2026款的奔驰E300L,..
潘九堂谈小米汽车立项路线之争:既然出发晚了,干脆挑战最难的,最终选择正..
IT之家 2 月 26 日消息,小米产业投资部合伙人潘九堂今日发文,谈到了小..
宝马CEO警告:忽视中国或危及未来经济成功,合作是关键..
【文/观察者网 王一】据英国路透社2月19日报道,德国宝马集团董事长齐普..
宝马CEO最新涉华表态:对中国庞大市场与创新潜力视而不见的人,正错失巨大..
据路透社报道,宝马集团首席执行官(CEO)奥利弗·齐普策当地时间19日警..
宝马7系直降27万 BBA集体放价 豪华车市格局生变
2026年2月,宝马7系终端现金优惠高达27万元,奔驰、奥迪等德系豪车主力车..
关于作者
细雨入梦(普通会员)
文章
1830
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体107022

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索