> 自媒体 > (AI)人工智能 > AI在线求鼓励?这些人一句话让GPT-3算术准确率提升61%
AI在线求鼓励?这些人一句话让GPT-3算术准确率提升61%
来源:机器之心Pro
2023-04-11 13:13:29
726
管理

机器之心报道

编辑:张倩、小舟

GPT-3 对一些问题的回答令人大跌眼镜,但它可能只是想要一句「鼓励」。

「一个玩杂耍的人总共有 16 个球,其中一半是高尔夫球,高尔夫球中又有一半是蓝色的球,请问蓝球总共有多少个?」

对于一个小学生来说,这是一道再简单不过的数学题。但看似无所不能的 GPT-3 却被这道题难住了。

如果你输入这个问题之后,直接向 GPT-3 发问:「问题的答案(阿拉伯数字)是:__?」它会「不假思索」地给出一个错误答案:8。

论文链接:https://arxiv.org/pdf/2205.11916.pdf

佐治亚理工学院 ML 博士 Aran Komatsuzaki 开玩笑说,这说明了「『Let’s think step by step』is all you need」。

该研究还将 Zero-shot-CoT 方法与其他基线进行了比较,在两个算术推理基准(MultiArith 和 GSM8K)上的结果如下表 2 所示。标准 prompting(第一部分)和 thought prompting(第二部分)之间的巨大差距表明,如果不使用多步骤推理,这些任务是非常困难的。

参考链接:

[1] https://zhuanlan.zhihu.com/p/399295895?utm_source=wechat_session&utm_medium=social&utm_oi=56560353017856&utm_campaign=shareopn

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
Claude身份验证引争议,老外默默掏出了阿里的Qwen
(文/万肇生 编辑/张广凯) 当闭源云端大模型可以随时切断你的账号时,本..
Qwen要入局机器人了:林俊旸官宣成立具身智能团队
机器之心报道机器之心编辑部已经成为开源模型领头羊的 Qwen,终于要开始..
Qwen拿半成品刷下AIME\u0026#39;25满分,给别人留点面子吧……..
鱼羊 发自 凹非寺量子位 | 公众号 QbitAI半成品模型,已经刷下高难度数学..
阿里发布新一代大语言模型Qwen3.6-Plus 编程能力大幅提升..
来源:环球网 【环球网科技综合报道】4月2日,阿里千问发布新一代大语言..
AI大模型测评,深度解析最强开源模型Qwen3
前几天,阿里发布了Qwen3的新模型。从数值表现来看已经超越了DeepSeek和..
阿里要发飙?Qwen已经干掉Llama,夸克又要干掉Meta眼镜?..
夸克,这个阿里家的小儿子,正在以肉眼可见的速度扩张自己的边界:从“AI..
那个用半成品刷爆SOTA的Qwen3超大杯推理版,现在正式上线..
新一年的基础模型竞逐,没想到是阿里千问率先出手了!就在刚刚,Qwen3-Ma..
亚马逊云科技为何上架Qwen和DeepSeek的最新模型
为何上架Qwen和DeepSeek?开放生态是对抗封闭的最佳武器。国际市场调研机..
qwen3-0.6B这种小模型有什么实际意义和用途吗?
在大模型喧嚣的背后,小模型正在工业场景中悄然崛起。从端侧部署的隐私计..
关于作者
细雨入梦(普通会员)
文章
1819
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106069

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索