GPT-4 和强化学习强强联合,机器人的未来将是什么样子?
在学习方面,GPT-4 是一个厉害的学生。在消化了大量人类数据后,它掌握了各门知识,甚至在聊天中能给数学家陶哲轩带来启发。
与此同时,它也成为了一名优秀的老师,而且不光是教书本知识,还能教机器人转笔。


此外,Eureka 还实现了一种新型的 in-context RLHF,它能够将人类操作员的自然语言反馈纳入其中,以引导和对齐奖励函数。它可以为机器人工程师提供强大的辅助功能,帮助工程师设计复杂的运动行为。英伟达高级 AI 科学家 Jim Fan 也是该论文的作者之一,他将这项研究比喻为「物理模拟器 API 空间中的旅行者号(美国研制并建造的外层星系空间探测器)」。

值得一提的是,这项研究是完全开源的,开源地址如下:

实验实验部分对 Eureka 进行了全面的评估,包括生成奖励函数的能力、解决新任务的能力以及对人类各种输入的整合能力。
实验环境包括 10 个不同的机器人以及 29 个任务,其中,这 29 个任务由 IsaacGym 模拟器实现。实验采用了 IsaacGym (Isaac) 的 9 个原始环境,涵盖从四足、双足、四旋翼、机械手到机器人的灵巧手的各种机器人形态。除此以外,本文还通过纳入 Dexterity 基准测试中的 20 项任务来确保评估的深度。

Eureka 还能产生新颖的奖励。本文通过计算所有 Isaac 任务上的 Eureka 奖励和人类奖励之间的相关性来评估 Eureka 奖励的新颖性。如图所示,Eureka 主要生成弱相关的奖励函数,其表现优于人类的奖励函数。此外,本文还观察到任务越难,Eureka 奖励的相关性就越小。在某些情况下,Eureka 奖励甚至与人类奖励呈负相关,但表现却明显优于人类奖励。

本文还研究了从人类奖励函数初始化开始是否对 Eureka 有利。如图所示,无论人类奖励的质量如何,Eureka 都会从人类奖励中改进并受益。

人形机器人通过 Eureka 学习跑步步态。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105719