哄一哄能让GPT-3准确率暴涨61%！谷歌\u0026东京大学研究震惊四座-工信会

> 自媒体 > （AI）人工智能 > 哄一哄能让GPT-3准确率暴涨61%！谷歌\u0026东京大学研究震惊四座

哄一哄能让GPT-3准确率暴涨61%！谷歌\u0026东京大学研究震惊四座

来源：量子位

2023-04-28 17:00:50

742

管理

梦晨明敏发自凹非寺

量子位 | 公众号 QbitAI

一觉醒来，机器学习社区炸了锅。

因为最新研究发现，只要对GPT-3说一句“让我们一步一步地思考”，就能让它正确回答出以前不会的问题。

比如下面这个例子：

16个球中有一半是高尔夫球，这些高尔夫球中有一半是蓝色的，一共有几个蓝色的高尔夫球？

（问题不难，但要注意这是零样本学习，也就是说AI训练阶段从没见过同类问题。）

如果要求GPT-3直接写出“答案是几”，它会给出错误答案：8。

但加上让我们一步一步地思考这句“咒语”后，GPT-3就会先输出思考的步骤，最后给出正确答案：4！

而且这并不是巧合，研究团队在论文中做了充分的验证。

上面的问题出自经典的MutiArith数据集，专门考验语言模型做数学题的能力，GPT-3本来在零样本场景下准确率仅有17%。

这篇论文中总结了9个最有效的提示词，其中换着花样让GPT-3逐步思考的前6个都让准确率暴涨到70%以上。

威胁AI一下说“时间不多了”或者“你头上有把枪”又会如何？

这样做最大的好处是通用，不再需要对不同问题类型提供专用的示例。

论文中对各类问题做了充分实验，包括12项测试：

6个数学问题测试集，SingleEq、AddSub、SVAMP和更有挑战的MultiArith, AQUA-RAT, GSM8K。

2个常识推理测试集，CommonsenseQA和StrategyQA。

2个符号推理测试集，Last Letter Concatenation和Coin Flip。

以及BIG-bench中的日期理解问题、跟踪乱序物体任务。

与普通的零样本学习相比，零样本CoT在其中10项中取得更好效果。

△右侧值为额外实验结果

在比较有难度的MultiArith和GSM8K数学测试中，用GPT-3最新版本Text-davinci-002 (175B)做了更深入实验。

如果给8次尝试机会取最好结果，还能进一步提升准确率至93%。

论文的最后，研究团队提出这项研究不仅可以作为零样本CoT的基线，更希望让学界认识到在构建微调数据集和少样本提示模版之前，充分发掘语言大模型零样本能力的重要性。

研究团队来自东京大学松尾研究室。

负责人松尾丰教授，同时是软银董事会中的第一位人工智能专家。

团队成员中的客座教授顾世翔来自谷歌大脑团队，顾世翔本科师从三巨头之一Hinton，博士毕业于剑桥大学。

加点“魔法”已经成为AI圈新潮了

零样本CoT究竟为何起作用还有待探索。

不过有人实验得出，这种办法似乎只对GPT-3（text-davinci-002）比较有效，他尝试了001版本，发现收效甚微。

他列出了一个自己做的例子。

提问：请将machine，learning中每个单词的最后一个字母连起来。

GPT-3在提示下给出的答案是连起来了两个单词中的所有字母。

同时，我们在吐槽队伍里又看到了马库斯的身影。

他也列出了一个失败的例子，GPT-3在“咒语”加持下也没弄明白，莎莉的牛到底会不会起死回生……

包括引爆这次话题的推特博主Aran，正是当初发现加一句“虚幻引擎”就能让AI生成图像画质飞升的那位。

也有人表示，这种用在AI上的技巧，不正是自己平常动脑时会用的吗？

论文地址：https://arxiv.org/abs/2205.11916

参考链接：[1]https://twitter.com/arankomatsuzaki/status/1529278580189908993[2]https://evjang.com/2021/10/23/generalization.html

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

为什么所有GPT-3复现都失败了？使用ChatGPT你应该知道这些

2023-04-28 17:01

GPT-3+DALL·E，60秒内搞定游戏设定和原型动画！网友：这游戏想玩

2023-04-28 16:59

相关文章

微信又上线新功能，聊天突然变了！

近日，微信突然因内测“访客记录”功能，引发全网关注。被内测到的用户，..

元宝可以总结微信聊天记录了

作者 | 黄昱元宝终于拆掉了微信最高的围墙。5月13日，腾讯旗下AI原生应用..

刚刚，微信聊天记录能喂给AI了！我让它爬楼、砍价、整理信息..

智东西作者 | 陈骏达编辑 | 心缘智东西5月13日报道，今天，腾讯宣布，微..

微信聊天出新功能了，快试试！

但要求你的手机安装有元宝App，这时就会跳转到元宝中进行粘贴，你可以发..

不用登你的微信，也能看到你的聊天记录！这几个地方一定赶紧删除..

你知道吗？其实不用登你的微信，也能看到你的聊天记录，是不是太可怕了？..

刚刚，微信聊天记录能喂给AI了，我让它爬楼、砍价、整理信息..

智东西5月13日报道，今天，腾讯宣布，微信已经支持将消息一键转发至元宝..

聊天总把天聊死？这7个雷区，你可能正在踩。如何正确和女生聊天..

明明聊得火热，为什么突然被拉黑？你可能踩中了这七个聊天雷区“在吗？”..

用ChatGPT看病，80%误诊：AI医生的9秒奇迹和80%的残酷真相..

9秒出CT报告，1分钟完成心脏诊断——AI医疗看起来像魔法。但哈佛刚说完：..

突发！OpenAI高层巨震，ChatGPT与CodeX或合并，超级AI来了！..

根据《连线》5 月 15 日的独家报道，在最新一轮组织调整中，OpenAI 总裁 ..

关于作者

天外天(普通会员)

文章

2026

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

2025/02/08

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

2025/02/09

05

AI 界黑马DeepSeek 超详细介绍

2025/02/09

标签云

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体110233

@2022 All Rights Reserved

浙ICP备19035174号-6 技术支持：千寻网络

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索