编辑:Lumina
【新智元导读】来自东京大学的Suspicion Agent利用GPT-4,在不完全信息博弈中表现出了高阶的心智理论能力(ToM)。在完全信息博弈中,每个博弈者都知道所有信息要素。
但不完全信息博弈不同,它模拟了现实世界中在不确定或不完全信息下进行决策的复杂性。
GPT-4作为目前最强大模型,具有非凡的知识检索和推理能力。
但GPT-4能否利用已学习到的知识进行不完全信息博弈?
为此,东京大学的研究人员引入了Suspicion Agent这一创新智能体,通过利用GPT-4的能力来执行不完全信息博弈。

的条件分布可以建模为:

这里,

的长度,此模块命名为观察解释器。
在不完全信息博弈中,这种表述方式能更容易理解与模型之间的交互。
研究人员引入了一种虚无规划方法,该方法具有一个Reflexion模块,旨在自动检查对局历史,使LLMs能够从历史经验中学习和改进规划,以及一个单独的规划模块,专门用于做出相应的决策。
然而,虚无的规划方法往往难以应对不完全信息博弈中固有的不确定性,尤其是在面对善于利用他人策略的对手时。
受这种适应性的启发,研究人员设计出了一种新的规划方法,即利用LLM的ToM能力来了解对手的行为,从而相应地调整策略。
实验
定量评估

在一阶理论心智策略下,Suspicion Agent选择弃牌,以最小化损失。这个决定是基于观察到对手通常在手中有Queen或Jack时才跟注。

然而,这些策略未能充分利用对手手牌的推测弱点。这一缺点源于它们不考虑Suspicion Agent的举动可能如何影响对手的反应。


表4:比较结果表明了在莱德克牌局环境中将对手观察结果纳入对局历史的影响

表5:比较结果表明,当Suspicion Agent在 Leduc Hold'em 环境中与CFR对弈时,在对局历史中加入对手观察结果的影响。结果是使用不同种子进行100局对局后的输赢筹码,输赢筹码数从1到14不等
结论
Suspicion Agent没有进行任何专门的训练,仅仅利用GPT-4的先验知识和推理能力,就能在Leduc Hold'em等不同的不完全信息游戏中战胜专门针对这些游戏训练的算法,如CFR和NFSP。
这表明大模型具有在不完全信息游戏中取得强大表现的潜力。
通过整合一阶和二阶理论心智模型,Suspicion Agent可以预测对手的行为,并相应调整自己的策略。这使得它可以对不同类型对手进行适应。
Suspicion Agent还展示了跨不同不完全信息游戏的泛化能力,仅仅根据游戏规则和观察规则,就可以在Coup和Texas Hold'em等游戏中进行决策。
但Suspicion Agent也有着一定的局限性。例如,由于计算成本限制,对不同算法的评估样本量较小。
以及推理成本高昂,每局游戏耗费接近1美元,并且Suspicion Agent的输出对提示的敏感性较高,存在hallucination的问题。
同时,在进行复杂推理和计算时,Suspicion Agent的表现也不尽人意。
未来,Suspicion Agent将在计算效率、推理鲁棒性等方面进行改进,并支持多模态和多步推理,来实现对复杂游戏环境的更好适应。
同时,Suspicion Agent在不完全信息博弈游戏中的应用,也可以迁移到未来多模态信息的整合,模拟更真实的交互、扩展到多玩家游戏环境中。
参考资料:
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103471