东大博士让GPT-4用心智理论玩德扑！完胜传统算法，碾压人类新手-工信会

> 自媒体 > （AI）人工智能 > 东大博士让GPT-4用心智理论玩德扑！完胜传统算法，碾压人类新手

东大博士让GPT-4用心智理论玩德扑！完胜传统算法，碾压人类新手

来源：新智元

2023-10-30 10:25:35

448

管理

编辑：Lumina

【新智元导读】来自东京大学的Suspicion Agent利用GPT-4，在不完全信息博弈中表现出了高阶的心智理论能力（ToM）。

在完全信息博弈中，每个博弈者都知道所有信息要素。

但不完全信息博弈不同，它模拟了现实世界中在不确定或不完全信息下进行决策的复杂性。

GPT-4作为目前最强大模型，具有非凡的知识检索和推理能力。

但GPT-4能否利用已学习到的知识进行不完全信息博弈？

为此，东京大学的研究人员引入了Suspicion Agent这一创新智能体，通过利用GPT-4的能力来执行不完全信息博弈。

的条件分布可以建模为：

这里，

的长度，此模块命名为观察解释器。

在不完全信息博弈中，这种表述方式能更容易理解与模型之间的交互。

研究人员引入了一种虚无规划方法，该方法具有一个Reflexion模块，旨在自动检查对局历史，使LLMs能够从历史经验中学习和改进规划，以及一个单独的规划模块，专门用于做出相应的决策。

然而，虚无的规划方法往往难以应对不完全信息博弈中固有的不确定性，尤其是在面对善于利用他人策略的对手时。

受这种适应性的启发，研究人员设计出了一种新的规划方法，即利用LLM的ToM能力来了解对手的行为，从而相应地调整策略。

实验

定量评估

在一阶理论心智策略下，Suspicion Agent选择弃牌，以最小化损失。这个决定是基于观察到对手通常在手中有Queen或Jack时才跟注。

然而，这些策略未能充分利用对手手牌的推测弱点。这一缺点源于它们不考虑Suspicion Agent的举动可能如何影响对手的反应。

表4：比较结果表明了在莱德克牌局环境中将对手观察结果纳入对局历史的影响

表5：比较结果表明，当Suspicion Agent在 Leduc Hold'em 环境中与CFR对弈时，在对局历史中加入对手观察结果的影响。结果是使用不同种子进行100局对局后的输赢筹码，输赢筹码数从1到14不等

结论

Suspicion Agent没有进行任何专门的训练，仅仅利用GPT-4的先验知识和推理能力，就能在Leduc Hold'em等不同的不完全信息游戏中战胜专门针对这些游戏训练的算法，如CFR和NFSP。

这表明大模型具有在不完全信息游戏中取得强大表现的潜力。

通过整合一阶和二阶理论心智模型，Suspicion Agent可以预测对手的行为，并相应调整自己的策略。这使得它可以对不同类型对手进行适应。

Suspicion Agent还展示了跨不同不完全信息游戏的泛化能力，仅仅根据游戏规则和观察规则，就可以在Coup和Texas Hold'em等游戏中进行决策。

但Suspicion Agent也有着一定的局限性。例如，由于计算成本限制，对不同算法的评估样本量较小。

以及推理成本高昂，每局游戏耗费接近1美元，并且Suspicion Agent的输出对提示的敏感性较高，存在hallucination的问题。

同时，在进行复杂推理和计算时，Suspicion Agent的表现也不尽人意。

未来，Suspicion Agent将在计算效率、推理鲁棒性等方面进行改进，并支持多模态和多步推理，来实现对复杂游戏环境的更好适应。

同时，Suspicion Agent在不完全信息博弈游戏中的应用，也可以迁移到未来多模态信息的整合，模拟更真实的交互、扩展到多玩家游戏环境中。

参考资料：

https://arxiv.org/abs/2309.17277

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

微软斯坦福新算法，杜绝AI灭绝人类风险！GPT-4自我迭代过程可控

2023-10-30 10:27

云端之上的创新：喜马拉雅基地房屋的隔热改造

2023-10-30 09:54

相关文章

2026赛季F1季前测试深度解析：法拉利单圈惊艳，梅赛德斯长跑强势..

第三名之争：迈凯伦 vs 红牛围场共识认为，法拉利和梅赛德斯已在领先集团..

V12引擎加持！改装版Datsun 240Z声浪媲美法拉利

【网通社快报】一辆搭载梅赛德斯-奔驰M120V12引擎的Datsun240Z近日引发关..

法拉利最便宜新敞篷车：Amalfi Spider三月首发

IT之家 2 月 19 日消息，汽车媒体 The Supercar Blog 昨日（2 月 18 日）..

法拉利Ferrari全家福

法拉利是世界顶级超跑代表，源自意大利，以赛道基因和极致性能著称。经典..

6.5 v12炸街，我终于懂了法拉利“纯血”的终极浪漫

法拉利purosangue63° 前门开启79° 后门开启劳斯莱斯式优雅，法拉利式性..

Luce只是其中之一法拉利今年有五款新车型亮相

据海外媒体报道称，法拉利2025年的利润正朝着正确的方向发展，订单已满到..

千匹马力、2.5秒破百！法拉利首款纯电Luce曝光

在内燃机领域拼搏数百年的法拉利正式的拥抱纯电赛道。2026年的2月份，法..

法拉利首款纯电车型Luce正式上市，融合经典设计与电动创新..

【网通社快报】法拉利近日正式推出品牌首款纯电动车Luce，引发行业广泛关..

更硬核的296：法拉利“特别版”新车谍照曝光，马力有望逼近700匹..

IT之家 2 月 16 日消息，博主 Derek Photography 公布了一辆伪装严密、外..

关于作者

杨子(普通会员)

文章

2195

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

2025/02/08

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

2025/02/09

05

AI 界黑马DeepSeek 超详细介绍

2025/02/09

标签云

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体114249

@2022 All Rights Reserved

浙ICP备19035174号-6 技术支持：千寻网络

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索