文 | 硅谷101
作为人工智能和机器人交叉的前沿领域,具身智能是当今科技领域最具潜力和前景的方向之一。其中,机器人/具身大模型扮演着“中枢大脑”的角色,使机器人能够在复杂多变的环境中实现自主学习和持续进化。因此,大模型的研发已成为推动机器人产业——尤其是通用型机器人突破发展的关键环节。
9月8日,中国的具身智能公司自变量机器人开源了他们的具身模型WALL-OSS,紧接着的9月9日,美国的具身智能公司Physical Intelligence(简称PI、π)也开源了他们的π₀.₅模型。中美两家公司几乎同时开源了自己的模型,这并非偶然。2025年,具身大模型的开源生态正在进入百花齐放的发展阶段。
这一态势让人联想到过去几年里以ChatGPT为代表的语言大模型演进路径:从2018年开源社区初步兴起,到2020年5月ChatGPT-3引发全球瞩目,语言大模型用了三年时间走向成熟。那么,机器人大模型距离属于它的“GPT-3时刻”还有多远?
本期《硅谷101》,主播泓君邀请了自变量机器人的CTO王昊,以及Physical Intelligence的研究员柯丽一鸣(Kay Ke),她是π₀、π₀.₅论文作者,一起来聊聊今年机器人模型领域重要的突破、当前还面临着哪些挑战、对比下中美的机器人发展路径有何区别,以及还需要多久才能在全场景落地。

以下是这次对话内容的精选:
01 行业突破与泛化能力泓君:你们认为整个2025年,机器人的模型领域最重要的突破是什么?
柯丽一鸣:我搞机器人大概有七八年了,我觉得机器人大模型的红火,也是在最近两三年才开始集中爆发。
我自己刚开始的研究中,没有用到很多大模型这些东西,更多是做一些小而精的任务。当时我就发现:一套东西在一个场景下能解决特定的问题,虽然做出来效果不错,但是很难便宜、便捷地复制到新的问题上去。
所以在我探索大模型的途中,最大的一个惊喜发现就是,验证了模型的通用性,这样就可以开始做一些泛化、性能提升上的探索,这时才能开始讨论机器人大模型的可能性。在机器人领域,我觉得现在比起两三年前,对大模型这一种技术路线的信仰要浓厚得多。
王昊:今年有一个非常明显的现象,那就是在应用上呈现出了指数效应。这背后的驱动力,其实也是来源于通用机器人基础模型的发展和进步。
在2023年以前,我们很多人会专注在单个任务上,把它做到极致;但现在我们有了统一的基础模型之后,就能够同时学习并执行成百上千种不同的任务,其实也就意味着:我们的优化目标变了,重心放在了提升整个模型在所有任务上的平均成功率。这也是指数效应发展的基础,我们现在可以开始去做复杂的长程任务(Long-Horizon Task,包含一系列连续步骤、需要机器人进行多步推理、规划并执行,最终才能完成的复杂任务),这是一个非常令人惊喜的现象。
泓君:我总结大家刚刚的关键词,一个是整个机器人模型泛化的探索,还有一个是复杂的长任务。请帮我们举一些例子来说明下,比如有哪些任务机器人以前做不到,到了2025年就能做到了?或者以前机器人只能局限在某个场景的特定任务,现在可以迁移到其他的场景了?

图片来源:Physical Intelligence
泓君:所以π₀.₅相比π₀,它的进化表现在哪?你刚刚提到了让它去一个新的家,它依然能够适应这种环境,这是一点。但比如说它做的任务是不是有一些局限性的?它的任务的可迁移性如何?哪些任务还不可迁移?它的规律是什么?请跟大家简单地解释一下。
柯丽一鸣:当我们在开始推进π₀.₅的时候,我们强调的点就是泛化,这时会强迫自己去收集一些不同的数据。但这个“不同”的数据的“不同”,其实没有那么好定义,因此我们决定把机器人放到外面不同的房子里去测试。
而在这个过程中我们又发现,不知道要收多少个不同的房子的数据才算到头了,我们得一边收集、一边检验,同时心里也会怀疑:今天收集了3个房子的数据,是不是就有帮助了?如果我们收集了30个都没有帮助,是不是就意味着这条路走不通?
但还好我们收集到了很多的不同的数据以后,最后训练出来的模型在验证时,确实发现它有比较强的泛化能力。也就是说π₀.₅在一些新的环境中的表现比以前更好了。当然并不是任意新环境都很好,目前还存在一些局限性,但大家还在慢慢地在感受和探索,未来落地时在性能上还有很多提升空间。
泓君:你们觉得机器人模型在研发过程中,泛化问题最难的环节是什么?比如是因为数据量比较小,还是算法的问题?
王昊:难点之一是物理世界中长尾效应的鲁棒性(robustness的音译,指事物可以抵御外部应力和影响并维持原有状态的自身性质),比如因为环境、光照产生了一些视觉误差。虽然可以通过用更好的传感器、更强的算力、更好的生成模型帮你做数据合成、数据增强,来缓解这些长尾效应,但真正的难点就是,现实时间有太多种可能性了,我们没法预测到所有可能的corner case(边角案例)。

图片来源:Google
柯丽一鸣:我觉得可以分成两个问题,一个是我们之前做了什么,另一个是对整个领域来说什么东西很有用。
π₀.₅应该有一篇后续的论文,探讨了我们对π₀.₅训练中的一些考量,其中有提到过,我们在π₀.₅的时候,引入了一些网络数据,我不知道严格意义上这算不算合成数据,但确实是希望通过引入一些外界各种各样的知识,去给它一种通用和通感,而不是直接告诉机器人应该什么动作。
而合成数据对于领域有什么作用,我觉得没有一个很清晰的定论。现在有些人觉得,如果能够大批次的生成成本低廉、有可控性、而且对机器人有用的的数据,那会是很好的,但现在比较大的困难就是怎么弄出这些数据、怎么样证明它有用,这还是比较前沿的研究问题。
王昊:现在头部的机器人公司的数据量,因为有真实物理世界限制,大家可能都集中在几万到几十万这个范围内。但这个和训练像GPT-4这样级别的语言模型去比,数据量还是少很多。我们除了用最重要的现实世界真实数据、机器人上的数据,其实也会用一些其他方面的数据,但是每一类型的数据肯定都是有自己的问题的。 机器人的真实的数据是比较贵的,受限于机器人的硬件场地、操作员的收集速度等等因素,所以大家有了很多改进方法,不仅可以依靠真实机器人本体,也可以做一些低成本的本体,甚至不用做完整的本体,只有一些穿戴式的传感器设备,都是可以去采集的。
其实我们也用了很多生成模型去做合成数据,但合成数据主要是缓解一些视觉和现实的分布差异问题,它很难去生成带有物理交互过程的数据,这种数据还是得来于现实世界的采集。 还有一类数据,就是人类的视频数据。这个规模非常非常大,多样性也很多,成本相对来讲也比较低,我们也帮很多公司在做这方面的探索。但要靠这些数据帮机器人做动作级的生成还是很困难的,现在具身模型从视频数据里学到的,还是在动作意图上,我们从人类的视频里,让模型学到了一些高级的语义理解、一些任务规划。
但是这种规划是通过视频,而不是语言的方式机器去学习的。包括像Genie 3,我觉得它是非常好的一个工作方式,它就是从互联网、从游戏环境里面得到了大量高质量的数据,所以通过视频生成的方式,可以做一些动作控制,是未来是一个很好的方向。虽然这个环境相比于现实有些简化,但它仍然可以作为训练的环境,去帮你去做这种交互。 所以在数据上我们还有工作要做,我想每家公司在数据的投入占比可能都不太一样,这也取于整个公司的综合的实力,比如运营能力、硬件的水平,对数据的使用规划不一样,会让你的数据成本也不一样。
中国和美国相比,可能硬件成本、人力成本是比较大的差异。就算在同一个地区,运营能力、数据过滤、清洗、任务生成分发、不同的场景里面的数据采集能力、场景的快速搭建以及恢复的能力,这都会影响数据成本。
泓君:所以你们公司的数据成本类比于其他机器人公司,大概是在什么水平?
王昊:这个很难在不同公司之间进行比较,因为大家对数据质量、多样性的要求可能不一样。但是对于我们公司来讲,数据肯定是在整个研发成本里占相当大的比例了。

图片来源:自变量机器人
泓君:在今年的9月8日,你们WALL-OSS的开源模型是正好上线了,请你给大家简单地介绍一下,你们的这个开源模型是什么?以及它的行业特点是什么?
王昊:我们是持续地发扬开源精神,也吸收了很多经验,所以是用了大概几万小时的真实世界的数据,训练了一个具身的基础模型。
我们是在一个统一的框架下面,让它可以既可以去做思维链、也可以做动作的生成。我们基于已经训练好的基础的视觉语言模型去做扩展,让它具备比较强的视觉理解、空间推理、多语言的指令遵循能力,同时它的动作的生成精度也比较高。这是我们观察到的,目前具身的开源模型上还比较欠缺的一些能力,我们也希望这次开源能够对具身智能行业有比较好的补充,让大家可以更好地用我们的基础模型,去做一些长程任务、解决一些复杂任务。
要解决这些长程任务,就需要更好的语言遵循、更好的空间以及因果的推理,也希望我们这种端到端的推理、规划加动作的执行模型,可以发挥作用,被社区用起来。
泓君:所以你们模型主打的点是什么?我觉得行业里面做模型玩家们,方向都还挺不一样的,比如有些是专注在精细的操作上的,像谷歌就很擅长于折纸的这些动作,像PI是希望有更强的泛化能力。如果用一句话去总结你们的优势,你觉得你们在机器人领域最关注的点是什么?
王昊:我们最关注的点是机器人的泛化和它的长程任务的解决能力。解决长程任务就意味着,它一定得有比较强的泛化能力,因为解决任何一个长序列的任务,它背后面临的都是变化的场景,这个任务可能遇到各种失败情况、各种没见过的操作对象,所以都需要它有很强的泛化。
泓君:比如那些长而复杂的问题,请大家举一个例子。

Willow Garage,图片来源:Business Insider
泓君:我看到现在业界,从创业方向看的话,大家又有很多的不一样,比如说有足式机器人,下面是一个人形机器人自己走路的;还有轮式机器人,它可能就注重于手部的操作,走路的部分它用轮子滚就可以了。很多公司也在想,我能不能有一个上半身跟下半身都能同时操作的机器人?因为很多机器人它可能要么上半身,要么下半身,但整体上大家可能都想把模型做得更大、功能做得更通用。
柯丽一鸣:我觉得“同”说的是,很多原来做在不同形态机型上的人,会用不同方法,现在大家都非常的开放,会说我们要不要试一试视觉语言的这种大模型,你说的这种上半身、下半身的形态,其实 π₀.₅做的就是这个事。
泓君:Kay觉得现在整个机器人模型连GPT-2它的水平都不够,王昊你怎么看?
王昊:我认为到GPT-2的水平了。用这个类比的话,GPT-1基本上是一个概念验证,通过预训练加数据的方式,可以处理一些任务。但到GPT-2的时候,我们开始验证它规模化的力量,通过大幅的增加模型参数和训练数据,就可以展示出规模化带来的能力提升。可能我们规模再做得更大,就能到GPT-3的水平了,大家就能看到很多能力的涌现了,所以我会觉得现在就是在GPT-2的这个阶段。
我们现在基本上已经知道:规模化是唯一的可靠路径了,所以我们要在这个阶段,疯狂地积累数据,提升模型规模,同时搭建支持具身智能的各种基础设施,所以说人形机器人目前是已经处于GPT-2的阶段是比较客观的。

图片来源:自变量机器人
泓君:所以你个人也是想做通用的模型的?
王昊:对,我们一定会去做通用的模型,这个是很重要的。
柯丽一鸣:我觉得现在两边各自的生态环境有很多的历史因素。一方面国内经济高速发展,经验足够,很多创业的成功,都是因为公司活下来了、公司商业化能够做好,就促使了国内创业的人会从解决问题、解决用户的需求来出发,因此会有很多人去深耕垂直领域。之前我还在网上看到什么中国的除草机器人“暴杀”这个欧美家庭,看到它以后,我觉得我都要给我朋友去安利,我觉得中国企业是很擅长做这样一个商业化的一个事情。
同时,中国制造业摆在那里,机器人确实是有很大的硬件需求,在国内针对商业需求做硬件这个优势,现阶段来看,就没有谁能够比得过国内。因此国内现在的生态里,很多人的创业都是一边保证着商业的成功,一边做一些其他探索。
之前我说自己毕业的这一年比较幸运,因为如果早两年毕业(可能我就做不下去了),当时有很多(早毕业的)朋友,他们机器人研究做得很优秀,可是都转行了,都转去做大语言模型、做强化学习。做机器人能让你锻炼到技术,但并不是做机器人本身,与其说美国很多公司一直都在做大而通用的模型,而不如说是这个时代恰巧让我们在2024年前后,涌现了一批相信这个道路的人。
这个恰巧的因素也是归功于OpenAI把大语言模型这件事做通了,给整个行业的一个反思和震撼。直到现在,我在加入PI的时候,和他们聊天讨论要不要去做,我就在问:你们做人型机器人行吗?你们要做人型的话是不是要烧很多钱?道路怎么走?商业化怎么走?这公司怎么活下来呀?从商业化的角度上来说,其实并不是那么明朗的一件事情,所以我才会感叹这些公司真的是凤毛麟角,能够有这么一个时机成立,能够有人去相信他也许能把事情做成。
而在这样的公司出现之前,其实美国的工业界是有很多机器学习的应用公司的,其中可能比较有名,也和我们公司渊源颇长的一个公司,就是Covariant Robotics,这个是伯克利的一位非常有名的教授所创立的,这些个人的创业的经历启发到了后面的人。因为在外界看来, Covariant就是因为深耕了一个商业的点,所以它商业做成了,但是它通用就没有做得那么好。我们公司最大的目标是想要做通用、想要做数据驱动,所以我们是很小心地避免做一些短期的商业项目,有这么一个历史因素,导致了现在的公司生态是这样。

图片来源:Covariant Robotics
泓君:我理解Covariant其实更多的是做灵巧手,而不是在研究模型。
柯丽一鸣:这件事情有点好笑,因为他们公司刚刚起步的时候,创始人Peter Abbeel作为机器学习机器人的一个领军人物,也表达过他们想把机器学习的机器人做到现实生活里,做到通用,当然可能是因为他们在物流上面做的太成功了,大家就记得他们的另一种模样了。
泓君:所以他们内部也是在研究通用的解决方案跟模型层的解决方案?
柯丽一鸣:我相信他们在早期的时候应该是有这种探索的,因为当年他们开始做的时候,确实没有人知道机器学习、机器人的应用能做成什么样的,所以他们肯定是做了一些探索的,现在的很多企业和研究者就是受到他们的经验的启发,选择走了现在的路。
04 商业化与落地前景泓君:我看大家在研究机器人的时候,都希望机器人能够帮大家做一些家务,比如说叠床单、叠衣服,把碗塞进洗碗机,大家觉得未来真的能有个这样的家用机器人帮我们做家务吗?你们觉得还需要多久才能拥有这样的通用型机器人?
王昊:做家务看似简单,但我觉得可以作为一个完美的机器人的图灵测试了。因为这个过程包含了具身智能机器人领域所有的精细动作,比如切菜,要有精细的力道控制;一些易碎东西处理时,要有非常丰富的感知;也有一些长程规划,比如得看菜谱去做菜、看说明书去使用某个电器、以及各种意外情况的处理等等,基本上已经包含了机器人的所有挑战。
要完全实现到这个程度,还是得分步走。我觉得在两、三年以内,我们可以在半结构化的环境里面,让机器人做一些简单的事,比如仅限于厨房内,帮你做一些简单的菜、洗碗等等,这些我觉得还行,但说如果要在完全开放的厨房里面、所有的事情能做到,我觉得还需要五年左右的时间。

图片来源:自变量机器人
泓君:五年左右,实现机器人在厨房里面做饭、洗碗?
王昊:对,我觉得是有可能去实现的。但那时还是有很多情况需要大家容忍,比如虽然机器人在各种任务上的成功率都比较高了,但也并不是100%,还是存在失误的可能,所以如果我们允许机器人可以和人协作、获得人类的帮助,我觉得5年是可以进入到家庭里面的。
我现在是比较乐观的,因为我觉得机器人领域的发展走在正确的道路上,有了Scaling law这样快速发展的规律,这在整个人类的历史演进中,我都觉得很幸运的事情,因为有一条看起来很明确路径,可以告诉我们怎么做:你只要投入算力和数据、迭代模型的架构、提升机器的能力,那就能肉眼可见地看到机器人的提升。
所以虽然现在有很多问题,让我们觉得很困难,但放在5年后再去看,都是可以被解决的,而且模型一定可以跨越到一个阈值、进入到新的阶段,所以我预测5年这个时间是非常合理的。
另外关于5年这个时间点,其实也需要审慎一点,因为机器人不像纯软件那样可以轻资产快速迭代,机器人还是受限于物理世界的物理定律,硬件得发展,还要全方位突破数据、算法、供应链、商业模式等等因素,才有可能真正做到那个地步。
泓君:我觉得是一个蛮大胆的预测。
柯丽一鸣:我觉得5~10年落地应该是可以的。现在的模型能力和算法显然还没有达到“我们只要商业化它就能做出产品”的这个地步,但行业的迭代速度确实非常快,再加上大家有这么多的热情和投入,我相信在两、三年里,甚至可能每一年,都会有新的很大的变化。
另外,我们具身智能行业其实和自动驾驶、甚至火箭升天这些传统的机器人行业有些不一样的地方。我们可能更像扫地机器人,就是最早的扫地机器人其实不完美,需要用户明白它能做什么、不能做什么,这就是一个比较好的商业化典范。以这个为目标的话,我保守估计是需要5~10年做出这样的产品,它可能偶尔会出错,但是它犯的错是在用户的范围里的,这样也能成为一个可以帮到用户的产品。
我有个问题很好奇,有的机器人公司是以“产业化”为目标的,想要做一些商业化应用的东西,这些公司该如何兼顾商业化与研发?

图片来源:自变量机器人
王昊:我觉得这个问题挺好的。因为作为创业公司,从第一天我们就在思考,怎么做既能仰望星空,也能脚踏实地?由于现实的因素,不可能达到AGI再去思考商业化,我们现在的策略就是,尽可能在我们通用模型的基础上,让它进入一些场景里做一些事情,这个场景必须和最终想实现的通用场景是比较接近的、它是可以去泛化的,所以我们尽可能的不去碰那些比较封闭的场景。
像一些公共服务、养老服务的场景就非常好,这样场景和通用机器人的最终应用场景有一些类似的地方,能涉及一些复杂的任务,比如和人的接触,也涉及到没有那么复杂的,比如只是打扫卫生、拿东西、处理食材等等。从这个角度来看,这些就是好的场景,因为和最终的目标接近,你可以在这些场景里,不断地迭代、检验通用模型的能力,也可以获得非常宝贵的数据反馈。但要保持这个选择初心,很重要的一点是:得有很强的商业化路径的定力。
另外一个比较重要的点,是公司的组织能力。因为一个公司的组织能力、组织结构,决定了这个公司的上限,我觉得公司一定要以通用模型、以基础模型作为目标,达到一个完全没有壁垒、高效协同的一个组织,才可能促使你在中间迈出的每一步都不会走错,最终能使你达到终极目标。
泓君:所以你是比较注重训练的场景是否能有商业化应用的,而不是一个在封闭化场景里面就能实现的一个需求。刚刚说的家用机器人帮我们做饭、洗衣、叠被子,这样的使用场景能不能让机器人有足够销量,去养活一个机器人公司?
王昊:我觉得是很有希望的。因为现在整个机器人的产业的规模还没有起来,所以等规模起来后,硬件成本还有非常大的降低空间。随着模型水平的提升、加上硬件成本降低,几年后的价格,会让用户的接受度更高。
其次从这个功能角度来讲,如果我们可以帮普通用户去做很多事,大家会非常乐意接受这样的产品。现在大家难以接受机器人,是因为机器人似乎只能跳跳舞、做一些情绪价值的陪伴,好像没有其他功能,以前机器人没机会向普通用户展示各种应用,但未来我觉得是有很多展示机会的,这个想象的空间是很大的。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105789