有了GPT-4之后，机器人把转笔、盘核桃都学会了-工信会

> 自媒体 > （AI）人工智能 > 有了GPT-4之后，机器人把转笔、盘核桃都学会了

有了GPT-4之后，机器人把转笔、盘核桃都学会了

来源：高交会

2023-10-31 13:10:41

535

管理

GPT-4 和强化学习强强联合，机器人的未来将是什么样子？

在学习方面，GPT-4 是一个厉害的学生。在消化了大量人类数据后，它掌握了各门知识，甚至在聊天中能给数学家陶哲轩带来启发。

与此同时，它也成为了一名优秀的老师，而且不光是教书本知识，还能教机器人转笔。

此外，Eureka 还实现了一种新型的 in-context RLHF，它能够将人类操作员的自然语言反馈纳入其中，以引导和对齐奖励函数。它可以为机器人工程师提供强大的辅助功能，帮助工程师设计复杂的运动行为。英伟达高级 AI 科学家 Jim Fan 也是该论文的作者之一，他将这项研究比喻为「物理模拟器 API 空间中的旅行者号（美国研制并建造的外层星系空间探测器）」。

值得一提的是，这项研究是完全开源的，开源地址如下：

实验

实验部分对 Eureka 进行了全面的评估，包括生成奖励函数的能力、解决新任务的能力以及对人类各种输入的整合能力。

实验环境包括 10 个不同的机器人以及 29 个任务，其中，这 29 个任务由 IsaacGym 模拟器实现。实验采用了 IsaacGym (Isaac) 的 9 个原始环境，涵盖从四足、双足、四旋翼、机械手到机器人的灵巧手的各种机器人形态。除此以外，本文还通过纳入 Dexterity 基准测试中的 20 项任务来确保评估的深度。

Eureka 还能产生新颖的奖励。本文通过计算所有 Isaac 任务上的 Eureka 奖励和人类奖励之间的相关性来评估 Eureka 奖励的新颖性。如图所示，Eureka 主要生成弱相关的奖励函数，其表现优于人类的奖励函数。此外，本文还观察到任务越难，Eureka 奖励的相关性就越小。在某些情况下，Eureka 奖励甚至与人类奖励呈负相关，但表现却明显优于人类奖励。

本文还研究了从人类奖励函数初始化开始是否对 Eureka 有利。如图所示，无论人类奖励的质量如何，Eureka 都会从人类奖励中改进并受益。

人形机器人通过 Eureka 学习跑步步态。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

三大技术突破数字AI机器人+NExT-GPT #人工智能

2023-10-31 13:18

OpenAI CEO：套壳ChatGPT注定消亡

2023-10-31 13:03