临近机器人GPT-3时刻，具身智能开源模型的加速演进-工信会

> 自媒体 > （AI）人工智能 > 临近机器人GPT-3时刻，具身智能开源模型的加速演进

临近机器人GPT-3时刻，具身智能开源模型的加速演进

来源：钛媒体APP

2026-04-28 22:47:13

126

管理

文 | 硅谷101

作为人工智能和机器人交叉的前沿领域，具身智能是当今科技领域最具潜力和前景的方向之一。其中，机器人/具身大模型扮演着“中枢大脑”的角色，使机器人能够在复杂多变的环境中实现自主学习和持续进化。因此，大模型的研发已成为推动机器人产业——尤其是通用型机器人突破发展的关键环节。

9月8日，中国的具身智能公司自变量机器人开源了他们的具身模型WALL-OSS，紧接着的9月9日，美国的具身智能公司Physical Intelligence（简称PI、π）也开源了他们的π₀.₅模型。中美两家公司几乎同时开源了自己的模型，这并非偶然。2025年，具身大模型的开源生态正在进入百花齐放的发展阶段。

这一态势让人联想到过去几年里以ChatGPT为代表的语言大模型演进路径：从2018年开源社区初步兴起，到2020年5月ChatGPT-3引发全球瞩目，语言大模型用了三年时间走向成熟。那么，机器人大模型距离属于它的“GPT-3时刻”还有多远？

本期《硅谷101》，主播泓君邀请了自变量机器人的CTO王昊，以及Physical Intelligence的研究员柯丽一鸣（Kay Ke），她是π₀、π₀.₅论文作者，一起来聊聊今年机器人模型领域重要的突破、当前还面临着哪些挑战、对比下中美的机器人发展路径有何区别，以及还需要多久才能在全场景落地。

以下是这次对话内容的精选：

01 行业突破与泛化能力

泓君：你们认为整个2025年，机器人的模型领域最重要的突破是什么？

柯丽一鸣：我搞机器人大概有七八年了，我觉得机器人大模型的红火，也是在最近两三年才开始集中爆发。

我自己刚开始的研究中，没有用到很多大模型这些东西，更多是做一些小而精的任务。当时我就发现：一套东西在一个场景下能解决特定的问题，虽然做出来效果不错，但是很难便宜、便捷地复制到新的问题上去。

所以在我探索大模型的途中，最大的一个惊喜发现就是，验证了模型的通用性，这样就可以开始做一些泛化、性能提升上的探索，这时才能开始讨论机器人大模型的可能性。在机器人领域，我觉得现在比起两三年前，对大模型这一种技术路线的信仰要浓厚得多。

王昊：今年有一个非常明显的现象，那就是在应用上呈现出了指数效应。这背后的驱动力，其实也是来源于通用机器人基础模型的发展和进步。

在2023年以前，我们很多人会专注在单个任务上，把它做到极致；但现在我们有了统一的基础模型之后，就能够同时学习并执行成百上千种不同的任务，其实也就意味着：我们的优化目标变了，重心放在了提升整个模型在所有任务上的平均成功率。这也是指数效应发展的基础，我们现在可以开始去做复杂的长程任务（Long-Horizon Task，包含一系列连续步骤、需要机器人进行多步推理、规划并执行，最终才能完成的复杂任务），这是一个非常令人惊喜的现象。

泓君：我总结大家刚刚的关键词，一个是整个机器人模型泛化的探索，还有一个是复杂的长任务。请帮我们举一些例子来说明下，比如有哪些任务机器人以前做不到，到了2025年就能做到了？或者以前机器人只能局限在某个场景的特定任务，现在可以迁移到其他的场景了？

图片来源：Physical Intelligence

泓君：所以π₀.₅相比π₀，它的进化表现在哪？你刚刚提到了让它去一个新的家，它依然能够适应这种环境，这是一点。但比如说它做的任务是不是有一些局限性的？它的任务的可迁移性如何？哪些任务还不可迁移？它的规律是什么？请跟大家简单地解释一下。

柯丽一鸣：当我们在开始推进π₀.₅的时候，我们强调的点就是泛化，这时会强迫自己去收集一些不同的数据。但这个“不同”的数据的“不同”，其实没有那么好定义，因此我们决定把机器人放到外面不同的房子里去测试。

而在这个过程中我们又发现，不知道要收多少个不同的房子的数据才算到头了，我们得一边收集、一边检验，同时心里也会怀疑：今天收集了3个房子的数据，是不是就有帮助了？如果我们收集了30个都没有帮助，是不是就意味着这条路走不通？

但还好我们收集到了很多的不同的数据以后，最后训练出来的模型在验证时，确实发现它有比较强的泛化能力。也就是说π₀.₅在一些新的环境中的表现比以前更好了。当然并不是任意新环境都很好，目前还存在一些局限性，但大家还在慢慢地在感受和探索，未来落地时在性能上还有很多提升空间。

泓君：你们觉得机器人模型在研发过程中，泛化问题最难的环节是什么？比如是因为数据量比较小，还是算法的问题？

王昊：难点之一是物理世界中长尾效应的鲁棒性（robustness的音译，指事物可以抵御外部应力和影响并维持原有状态的自身性质），比如因为环境、光照产生了一些视觉误差。虽然可以通过用更好的传感器、更强的算力、更好的生成模型帮你做数据合成、数据增强，来缓解这些长尾效应，但真正的难点就是，现实时间有太多种可能性了，我们没法预测到所有可能的corner case（边角案例）。

图片来源：Google

柯丽一鸣：我觉得可以分成两个问题，一个是我们之前做了什么，另一个是对整个领域来说什么东西很有用。

π₀.₅应该有一篇后续的论文，探讨了我们对π₀.₅训练中的一些考量，其中有提到过，我们在π₀.₅的时候，引入了一些网络数据，我不知道严格意义上这算不算合成数据，但确实是希望通过引入一些外界各种各样的知识，去给它一种通用和通感，而不是直接告诉机器人应该什么动作。

而合成数据对于领域有什么作用，我觉得没有一个很清晰的定论。现在有些人觉得，如果能够大批次的生成成本低廉、有可控性、而且对机器人有用的的数据，那会是很好的，但现在比较大的困难就是怎么弄出这些数据、怎么样证明它有用，这还是比较前沿的研究问题。

王昊：现在头部的机器人公司的数据量，因为有真实物理世界限制，大家可能都集中在几万到几十万这个范围内。但这个和训练像GPT-4这样级别的语言模型去比，数据量还是少很多。我们除了用最重要的现实世界真实数据、机器人上的数据，其实也会用一些其他方面的数据，但是每一类型的数据肯定都是有自己的问题的。机器人的真实的数据是比较贵的，受限于机器人的硬件场地、操作员的收集速度等等因素，所以大家有了很多改进方法，不仅可以依靠真实机器人本体，也可以做一些低成本的本体，甚至不用做完整的本体，只有一些穿戴式的传感器设备，都是可以去采集的。

其实我们也用了很多生成模型去做合成数据，但合成数据主要是缓解一些视觉和现实的分布差异问题，它很难去生成带有物理交互过程的数据，这种数据还是得来于现实世界的采集。还有一类数据，就是人类的视频数据。这个规模非常非常大，多样性也很多，成本相对来讲也比较低，我们也帮很多公司在做这方面的探索。但要靠这些数据帮机器人做动作级的生成还是很困难的，现在具身模型从视频数据里学到的，还是在动作意图上，我们从人类的视频里，让模型学到了一些高级的语义理解、一些任务规划。

但是这种规划是通过视频，而不是语言的方式机器去学习的。包括像Genie 3，我觉得它是非常好的一个工作方式，它就是从互联网、从游戏环境里面得到了大量高质量的数据，所以通过视频生成的方式，可以做一些动作控制，是未来是一个很好的方向。虽然这个环境相比于现实有些简化，但它仍然可以作为训练的环境，去帮你去做这种交互。所以在数据上我们还有工作要做，我想每家公司在数据的投入占比可能都不太一样，这也取于整个公司的综合的实力，比如运营能力、硬件的水平，对数据的使用规划不一样，会让你的数据成本也不一样。

中国和美国相比，可能硬件成本、人力成本是比较大的差异。就算在同一个地区，运营能力、数据过滤、清洗、任务生成分发、不同的场景里面的数据采集能力、场景的快速搭建以及恢复的能力，这都会影响数据成本。

泓君：所以你们公司的数据成本类比于其他机器人公司，大概是在什么水平？

王昊：这个很难在不同公司之间进行比较，因为大家对数据质量、多样性的要求可能不一样。但是对于我们公司来讲，数据肯定是在整个研发成本里占相当大的比例了。

图片来源：自变量机器人

泓君：在今年的9月8日，你们WALL-OSS的开源模型是正好上线了，请你给大家简单地介绍一下，你们的这个开源模型是什么？以及它的行业特点是什么？

王昊：我们是持续地发扬开源精神，也吸收了很多经验，所以是用了大概几万小时的真实世界的数据，训练了一个具身的基础模型。

我们是在一个统一的框架下面，让它可以既可以去做思维链、也可以做动作的生成。我们基于已经训练好的基础的视觉语言模型去做扩展，让它具备比较强的视觉理解、空间推理、多语言的指令遵循能力，同时它的动作的生成精度也比较高。这是我们观察到的，目前具身的开源模型上还比较欠缺的一些能力，我们也希望这次开源能够对具身智能行业有比较好的补充，让大家可以更好地用我们的基础模型，去做一些长程任务、解决一些复杂任务。

要解决这些长程任务，就需要更好的语言遵循、更好的空间以及因果的推理，也希望我们这种端到端的推理、规划加动作的执行模型，可以发挥作用，被社区用起来。

泓君：所以你们模型主打的点是什么？我觉得行业里面做模型玩家们，方向都还挺不一样的，比如有些是专注在精细的操作上的，像谷歌就很擅长于折纸的这些动作，像PI是希望有更强的泛化能力。如果用一句话去总结你们的优势，你觉得你们在机器人领域最关注的点是什么？

王昊：我们最关注的点是机器人的泛化和它的长程任务的解决能力。解决长程任务就意味着，它一定得有比较强的泛化能力，因为解决任何一个长序列的任务，它背后面临的都是变化的场景，这个任务可能遇到各种失败情况、各种没见过的操作对象，所以都需要它有很强的泛化。

泓君：比如那些长而复杂的问题，请大家举一个例子。

Willow Garage，图片来源：Business Insider

泓君：我看到现在业界，从创业方向看的话，大家又有很多的不一样，比如说有足式机器人，下面是一个人形机器人自己走路的；还有轮式机器人，它可能就注重于手部的操作，走路的部分它用轮子滚就可以了。很多公司也在想，我能不能有一个上半身跟下半身都能同时操作的机器人？因为很多机器人它可能要么上半身，要么下半身，但整体上大家可能都想把模型做得更大、功能做得更通用。

柯丽一鸣：我觉得“同”说的是，很多原来做在不同形态机型上的人，会用不同方法，现在大家都非常的开放，会说我们要不要试一试视觉语言的这种大模型，你说的这种上半身、下半身的形态，其实 π₀.₅做的就是这个事。

泓君：Kay觉得现在整个机器人模型连GPT-2它的水平都不够，王昊你怎么看？

王昊：我认为到GPT-2的水平了。用这个类比的话，GPT-1基本上是一个概念验证，通过预训练加数据的方式，可以处理一些任务。但到GPT-2的时候，我们开始验证它规模化的力量，通过大幅的增加模型参数和训练数据，就可以展示出规模化带来的能力提升。可能我们规模再做得更大，就能到GPT-3的水平了，大家就能看到很多能力的涌现了，所以我会觉得现在就是在GPT-2的这个阶段。

我们现在基本上已经知道：规模化是唯一的可靠路径了，所以我们要在这个阶段，疯狂地积累数据，提升模型规模，同时搭建支持具身智能的各种基础设施，所以说人形机器人目前是已经处于GPT-2的阶段是比较客观的。

图片来源：自变量机器人

泓君：所以你个人也是想做通用的模型的？

王昊：对，我们一定会去做通用的模型，这个是很重要的。

柯丽一鸣：我觉得现在两边各自的生态环境有很多的历史因素。一方面国内经济高速发展，经验足够，很多创业的成功，都是因为公司活下来了、公司商业化能够做好，就促使了国内创业的人会从解决问题、解决用户的需求来出发，因此会有很多人去深耕垂直领域。之前我还在网上看到什么中国的除草机器人“暴杀”这个欧美家庭，看到它以后，我觉得我都要给我朋友去安利，我觉得中国企业是很擅长做这样一个商业化的一个事情。

同时，中国制造业摆在那里，机器人确实是有很大的硬件需求，在国内针对商业需求做硬件这个优势，现阶段来看，就没有谁能够比得过国内。因此国内现在的生态里，很多人的创业都是一边保证着商业的成功，一边做一些其他探索。

之前我说自己毕业的这一年比较幸运，因为如果早两年毕业（可能我就做不下去了），当时有很多（早毕业的）朋友，他们机器人研究做得很优秀，可是都转行了，都转去做大语言模型、做强化学习。做机器人能让你锻炼到技术，但并不是做机器人本身，与其说美国很多公司一直都在做大而通用的模型，而不如说是这个时代恰巧让我们在2024年前后，涌现了一批相信这个道路的人。

这个恰巧的因素也是归功于OpenAI把大语言模型这件事做通了，给整个行业的一个反思和震撼。直到现在，我在加入PI的时候，和他们聊天讨论要不要去做，我就在问：你们做人型机器人行吗？你们要做人型的话是不是要烧很多钱？道路怎么走？商业化怎么走？这公司怎么活下来呀？从商业化的角度上来说，其实并不是那么明朗的一件事情，所以我才会感叹这些公司真的是凤毛麟角，能够有这么一个时机成立，能够有人去相信他也许能把事情做成。

而在这样的公司出现之前，其实美国的工业界是有很多机器学习的应用公司的，其中可能比较有名，也和我们公司渊源颇长的一个公司，就是Covariant Robotics，这个是伯克利的一位非常有名的教授所创立的，这些个人的创业的经历启发到了后面的人。因为在外界看来， Covariant就是因为深耕了一个商业的点，所以它商业做成了，但是它通用就没有做得那么好。我们公司最大的目标是想要做通用、想要做数据驱动，所以我们是很小心地避免做一些短期的商业项目，有这么一个历史因素，导致了现在的公司生态是这样。

图片来源：Covariant Robotics

泓君：我理解Covariant其实更多的是做灵巧手，而不是在研究模型。

柯丽一鸣：这件事情有点好笑，因为他们公司刚刚起步的时候，创始人Peter Abbeel作为机器学习机器人的一个领军人物，也表达过他们想把机器学习的机器人做到现实生活里，做到通用，当然可能是因为他们在物流上面做的太成功了，大家就记得他们的另一种模样了。

泓君：所以他们内部也是在研究通用的解决方案跟模型层的解决方案？

柯丽一鸣：我相信他们在早期的时候应该是有这种探索的，因为当年他们开始做的时候，确实没有人知道机器学习、机器人的应用能做成什么样的，所以他们肯定是做了一些探索的，现在的很多企业和研究者就是受到他们的经验的启发，选择走了现在的路。

04 商业化与落地前景

泓君：我看大家在研究机器人的时候，都希望机器人能够帮大家做一些家务，比如说叠床单、叠衣服，把碗塞进洗碗机，大家觉得未来真的能有个这样的家用机器人帮我们做家务吗？你们觉得还需要多久才能拥有这样的通用型机器人？

王昊：做家务看似简单，但我觉得可以作为一个完美的机器人的图灵测试了。因为这个过程包含了具身智能机器人领域所有的精细动作，比如切菜，要有精细的力道控制；一些易碎东西处理时，要有非常丰富的感知；也有一些长程规划，比如得看菜谱去做菜、看说明书去使用某个电器、以及各种意外情况的处理等等，基本上已经包含了机器人的所有挑战。

要完全实现到这个程度，还是得分步走。我觉得在两、三年以内，我们可以在半结构化的环境里面，让机器人做一些简单的事，比如仅限于厨房内，帮你做一些简单的菜、洗碗等等，这些我觉得还行，但说如果要在完全开放的厨房里面、所有的事情能做到，我觉得还需要五年左右的时间。

图片来源：自变量机器人

泓君：五年左右，实现机器人在厨房里面做饭、洗碗？

王昊：对，我觉得是有可能去实现的。但那时还是有很多情况需要大家容忍，比如虽然机器人在各种任务上的成功率都比较高了，但也并不是100%，还是存在失误的可能，所以如果我们允许机器人可以和人协作、获得人类的帮助，我觉得5年是可以进入到家庭里面的。

我现在是比较乐观的，因为我觉得机器人领域的发展走在正确的道路上，有了Scaling law这样快速发展的规律，这在整个人类的历史演进中，我都觉得很幸运的事情，因为有一条看起来很明确路径，可以告诉我们怎么做：你只要投入算力和数据、迭代模型的架构、提升机器的能力，那就能肉眼可见地看到机器人的提升。

所以虽然现在有很多问题，让我们觉得很困难，但放在5年后再去看，都是可以被解决的，而且模型一定可以跨越到一个阈值、进入到新的阶段，所以我预测5年这个时间是非常合理的。

另外关于5年这个时间点，其实也需要审慎一点，因为机器人不像纯软件那样可以轻资产快速迭代，机器人还是受限于物理世界的物理定律，硬件得发展，还要全方位突破数据、算法、供应链、商业模式等等因素，才有可能真正做到那个地步。

泓君：我觉得是一个蛮大胆的预测。

柯丽一鸣：我觉得5～10年落地应该是可以的。现在的模型能力和算法显然还没有达到“我们只要商业化它就能做出产品”的这个地步，但行业的迭代速度确实非常快，再加上大家有这么多的热情和投入，我相信在两、三年里，甚至可能每一年，都会有新的很大的变化。

另外，我们具身智能行业其实和自动驾驶、甚至火箭升天这些传统的机器人行业有些不一样的地方。我们可能更像扫地机器人，就是最早的扫地机器人其实不完美，需要用户明白它能做什么、不能做什么，这就是一个比较好的商业化典范。以这个为目标的话，我保守估计是需要5～10年做出这样的产品，它可能偶尔会出错，但是它犯的错是在用户的范围里的，这样也能成为一个可以帮到用户的产品。

我有个问题很好奇，有的机器人公司是以“产业化”为目标的，想要做一些商业化应用的东西，这些公司该如何兼顾商业化与研发？

图片来源：自变量机器人

王昊：我觉得这个问题挺好的。因为作为创业公司，从第一天我们就在思考，怎么做既能仰望星空，也能脚踏实地？由于现实的因素，不可能达到AGI再去思考商业化，我们现在的策略就是，尽可能在我们通用模型的基础上，让它进入一些场景里做一些事情，这个场景必须和最终想实现的通用场景是比较接近的、它是可以去泛化的，所以我们尽可能的不去碰那些比较封闭的场景。

像一些公共服务、养老服务的场景就非常好，这样场景和通用机器人的最终应用场景有一些类似的地方，能涉及一些复杂的任务，比如和人的接触，也涉及到没有那么复杂的，比如只是打扫卫生、拿东西、处理食材等等。从这个角度来看，这些就是好的场景，因为和最终的目标接近，你可以在这些场景里，不断地迭代、检验通用模型的能力，也可以获得非常宝贵的数据反馈。但要保持这个选择初心，很重要的一点是：得有很强的商业化路径的定力。

另外一个比较重要的点，是公司的组织能力。因为一个公司的组织能力、组织结构，决定了这个公司的上限，我觉得公司一定要以通用模型、以基础模型作为目标，达到一个完全没有壁垒、高效协同的一个组织，才可能促使你在中间迈出的每一步都不会走错，最终能使你达到终极目标。

泓君：所以你是比较注重训练的场景是否能有商业化应用的，而不是一个在封闭化场景里面就能实现的一个需求。刚刚说的家用机器人帮我们做饭、洗衣、叠被子，这样的使用场景能不能让机器人有足够销量，去养活一个机器人公司？

王昊：我觉得是很有希望的。因为现在整个机器人的产业的规模还没有起来，所以等规模起来后，硬件成本还有非常大的降低空间。随着模型水平的提升、加上硬件成本降低，几年后的价格，会让用户的接受度更高。

其次从这个功能角度来讲，如果我们可以帮普通用户去做很多事，大家会非常乐意接受这样的产品。现在大家难以接受机器人，是因为机器人似乎只能跳跳舞、做一些情绪价值的陪伴，好像没有其他功能，以前机器人没机会向普通用户展示各种应用，但未来我觉得是有很多展示机会的，这个想象的空间是很大的。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

AI早报 | OpenAI正式推出GPT-5.5；擎天租完成全国首批具身智能机器人保险理赔。

1个月前

ChatGPT 中的工作区智能体介绍

1个月前