> 自媒体 > (AI)人工智能 > 哄一哄能让GPT-3准确率暴涨61%!谷歌\u0026东京大学研究震惊四座
哄一哄能让GPT-3准确率暴涨61%!谷歌\u0026东京大学研究震惊四座
来源:量子位
2023-04-28 17:00:50
742
管理

梦晨 明敏 发自 凹非寺

量子位 | 公众号 QbitAI

一觉醒来,机器学习社区炸了锅。

因为最新研究发现,只要对GPT-3说一句“让我们一步一步地思考”,就能让它正确回答出以前不会的问题。

比如下面这个例子:

16个球中有一半是高尔夫球,这些高尔夫球中有一半是蓝色的,一共有几个蓝色的高尔夫球?

(问题不难,但要注意这是零样本学习,也就是说AI训练阶段从没见过同类问题。)

如果要求GPT-3直接写出“答案是几”,它会给出错误答案:8。

但加上让我们一步一步地思考这句“咒语”后,GPT-3就会先输出思考的步骤,最后给出正确答案:4!

而且这并不是巧合,研究团队在论文中做了充分的验证。

上面的问题出自经典的MutiArith数据集,专门考验语言模型做数学题的能力,GPT-3本来在零样本场景下准确率仅有17%。

这篇论文中总结了9个最有效的提示词,其中换着花样让GPT-3逐步思考的前6个都让准确率暴涨到70%以上。

威胁AI一下说“时间不多了”或者“你头上有把枪”又会如何?

这样做最大的好处是通用,不再需要对不同问题类型提供专用的示例。

论文中对各类问题做了充分实验,包括12项测试:

6个数学问题测试集,SingleEq、AddSub、SVAMP和更有挑战的MultiArith, AQUA-RAT, GSM8K。

2个常识推理测试集,CommonsenseQA和StrategyQA。

2个符号推理测试集,Last Letter Concatenation和Coin Flip。

以及BIG-bench中的日期理解问题、跟踪乱序物体任务。

与普通的零样本学习相比,零样本CoT在其中10项中取得更好效果。

△右侧值为额外实验结果

在比较有难度的MultiArith和GSM8K数学测试中,用GPT-3最新版本Text-davinci-002 (175B)做了更深入实验。

如果给8次尝试机会取最好结果,还能进一步提升准确率至93%。

论文的最后,研究团队提出这项研究不仅可以作为零样本CoT的基线,更希望让学界认识到在构建微调数据集和少样本提示模版之前,充分发掘语言大模型零样本能力的重要性。

研究团队来自东京大学松尾研究室。

负责人松尾丰教授,同时是软银董事会中的第一位人工智能专家。

团队成员中的客座教授顾世翔来自谷歌大脑团队,顾世翔本科师从三巨头之一Hinton,博士毕业于剑桥大学。

加点“魔法”已经成为AI圈新潮了

零样本CoT究竟为何起作用还有待探索。

不过有人实验得出,这种办法似乎只对GPT-3(text-davinci-002)比较有效,他尝试了001版本,发现收效甚微。

他列出了一个自己做的例子。

提问:请将machine,learning中每个单词的最后一个字母连起来。

GPT-3在提示下给出的答案是连起来了两个单词中的所有字母。

同时,我们在吐槽队伍里又看到了马库斯的身影。

他也列出了一个失败的例子,GPT-3在“咒语”加持下也没弄明白,莎莉的牛到底会不会起死回生……

包括引爆这次话题的推特博主Aran,正是当初发现加一句“虚幻引擎”就能让AI生成图像画质飞升的那位。

也有人表示,这种用在AI上的技巧,不正是自己平常动脑时会用的吗?

论文地址:https://arxiv.org/abs/2205.11916

参考链接:[1]https://twitter.com/arankomatsuzaki/status/1529278580189908993[2]https://evjang.com/2021/10/23/generalization.html

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
微信又上线新功能,聊天突然变了!
近日,微信突然因内测“访客记录”功能,引发全网关注。被内测到的用户,..
元宝可以总结微信聊天记录了
作者 | 黄昱元宝终于拆掉了微信最高的围墙。5月13日,腾讯旗下AI原生应用..
刚刚,微信聊天记录能喂给AI了!我让它爬楼、砍价、整理信息..
智东西作者 | 陈骏达编辑 | 心缘智东西5月13日报道,今天,腾讯宣布,微..
微信聊天出新功能了,快试试!
但要求你的手机安装有元宝App,这时就会跳转到元宝中进行粘贴,你可以发..
不用登你的微信,也能看到你的聊天记录!这几个地方一定赶紧删除..
你知道吗?其实不用登你的微信,也能看到你的聊天记录,是不是太可怕了?..
刚刚,微信聊天记录能喂给AI了,我让它爬楼、砍价、整理信息..
智东西5月13日报道,今天,腾讯宣布,微信已经支持将消息一键转发至元宝..
聊天总把天聊死?这7个雷区,你可能正在踩。如何正确和女生聊天..
明明聊得火热,为什么突然被拉黑?你可能踩中了这七个聊天雷区“在吗?”..
用ChatGPT看病,80%误诊:AI医生的9秒奇迹和80%的残酷真相..
9秒出CT报告,1分钟完成心脏诊断——AI医疗看起来像魔法。但哈佛刚说完:..
突发!OpenAI高层巨震,ChatGPT与CodeX或合并,超级AI来了!..
根据《连线》5 月 15 日的独家报道,在最新一轮组织调整中,OpenAI 总裁 ..
关于作者
天外天(普通会员)
文章
2026
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体110233

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索