> 自媒体 > (AI)人工智能 > GPT-4推理更像人了!中国科学院提出思维传播,即插即用
GPT-4推理更像人了!中国科学院提出思维传播,即插即用
来源:新智元
2023-10-31 14:00:53
366
管理

编辑:桃子 好困

【新智元导读】大模型推理难题攻克了?中国科学院联手耶鲁大学的研究人员提出了全新框架「思维传播」,让大模型能够像人类一样类比思考。

如今,GPT-4、PaLM等巨型神经网络模型横空出世,已经展现出惊人的少样本学习能力。

只需给出简单提示,它们就能进行文本推理、编写故事、回答问题、编程......

然鹅,LLM在复杂、多步推理任务上却常常败给人类,且苦苦挣扎无果。

对此,中国科学院和耶鲁大学的研究人员提出了一种「思维传播」(Thought Propagation)新框架,能够通过「类比思维」增强LLM的推理。

LLM多步推理,败给人类

显而易见,LLM擅长根据提示进行基本推理,但在处理复杂的多步骤问题时仍有困难,比如优化、规划。

反观人类,他们会汲取类似经验中的直觉来解决新问题。

大模型无法做到这点,是由其固有的局限性决定的。

因为LLM的知识完全来自于训练数据中的模式,无法真正理解语言或概念。因此,作为统计模型,它们很难进行复杂的组合泛化。

具体来说,TP包括了三个阶段:

1. 提出类似问题:LLM通过提示生成一组与输入问题有相似之处的类似问题。这将引导模型检索潜在的相关先前经验。

2. 解决类似问题:通过现有的提示技术,如CoT,让LLM解决每个类似的问题。

3. 汇总解决方案:有2种不同的途径——根据类比解决方案,直接推断出输入问题的新解决方案;通过比较输入问题的类比解决方案,推导出高级计划或策略。

这样一来,大模型就可以重用先前的经验和启发式方法,还可以将其初始推理与类比解决方案进行交叉检查,以完善这些解决方案。

值得一提的是,「思维传播」与模型无关,可以在任何提示方法的基础上进行单个问题解决步骤。

这一方法关键的新颖之处在于,激发LLM类比思维,以引导复杂的推理过程。

「思维传播」究竟能让LLM多像人类,还得实操结果来说话。

中国科学院和耶鲁的研究人员在3个任务中进行了评估:

- 最短路径推理:需要在图中找到节点之间的最佳路径需要全局规划和搜索。即使在简单的图上,标准技术也会失败。

- 创意写作:生成连贯、有创意的故事是一个开放式的挑战。当给出高层次的大纲提示时,LLM通常会失去一致性或逻辑性。

- LLM智能体规划:与文本环境交互的LLM智能体与长期战略方面举步维艰。它们的计划经常会出现「漂移」或陷入循环。

最短路径推理

最短路径推理任务中,现有的方法推理遇到的问题无法解决。

虽然(a)中的图非常简单,但由于推理从0开始,这些方法只能让LLM找到次优解(b,c),甚至重复访问中间节点(d)。

同时,研究人员还进一步研究了TP层数对最短路径任务复杂性和性能的影响。

在不同设置下,1层TP的token成本与ToT类似。但是,1层TP在寻找最优最短路径方面,已经取得了非常有竞争力的性能。

此外,与0层TP(IO)相比,1层TP的性能增益也非常显著。图5 (a) 显示了2层TP的token成本增加。

创意写作

下表2显示了TP和基线在GPT-3.5和GPT-4中的表现。在一致性上,TP都超过了基线。另外,在用户研究中,TP在创意写作中人类偏好提高了13%。

LLM智能体规划

在第三个任务评估中,研究人员使用ALFWorld游戏套件,在134个环境中实例化LLM智能体规划任务。

TP在LLM智能体规划中任务完成率提高15%。这表明,在完成类似任务时,对成功规划的反思TP具有优越性。

俞俊驰是中国科学院自动化研究所的四年级博士生,导师是赫然教授。

此前,他曾在腾讯人工智能实验室实习,并与Tingyang Xu博士、Yu Rong博士、Yatao Bian博士和Junzhou Huang教授共事。目前,他是耶鲁大学计算机科学系的交流生,师从Rex Ying教授。

他的目标是开发具有良好可解释性和可移植性的可信图学习(TwGL)方法,并探索其在生物化学方面的应用。

参考资料:

https://arxiv.org/abs/2310.03965

https://notes.aimodels.fyi/thought-propagation-llm-analogy-reasoning/

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
这或是美国最后一次向中国出售AI芯片!黄仁勋知道时间不多了..
以deepseek为代表的中国AI企业进化太快了。其次,美国不甘心放弃中国市场..
千问模型新增多款技术产品 涵盖语音、视觉、代码等多领域..
封面新闻记者 孟梅 欧阳宏宇9月24日,2025云栖大会现场,阿里云CTO周靖人..
2025年:互联网还是舒适区?
在AI与社交媒体深度捆绑的时代,我们的注意力被算法不断重塑。从GPT5到Ge..
大打免费牌争夺用户 马斯克Grok4与ChatGPT5“短兵相接”..
《科创板日报》8月12日讯(记者 李佳怡)继ChatGPT后,Grok4宣布免费开放..
18款AI模型幻觉率大公开|你的AI靠谱吗?
根据Artificial Analysis最新发布的Omniscience Index测评数据,18款主流..
解放军总医院联合南大、吉大等机构,共同提出SpineGPT..
本研究由解放军总医院牵头,联合浙江大学医学院附属第二医院、复旦大学附..
千问首家接入东航,AI助手竞赛开始抢“机票”
4月23日,千问宣布对外开放“AI办事”能力,首家接入中国东方航空,上线..
千问上线AI讲教材能力,首批覆盖小学阶段语文、数学..
齐鲁晚报·齐鲁壹点记者 季明智进入新学期后,不少学生陷入“开学综合症..
千问免费开放财经分析模块,AI能否替代人工投研判断..
4月7日,阿里巴巴旗下AI助手千问宣布升级“深度研究”能力,新增财经分析..
关于作者
泡沫人生(普通会员)
文章
1898
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105939

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索