> 自媒体 > (AI)人工智能 > π0.7发布,机器人迎来GPT-2时刻
π0.7发布,机器人迎来GPT-2时刻
来源:新浪财经
2026-04-29 12:41:43
195
管理

来源:市场资讯

(来源:智东西)

更令人振奋的是,当研究者采用“语言指导”的方式,像向新员工解释事情一样,逐步给出指令:“打开空气炸锅”“拿起红薯”“把红薯放进炸篮”“关闭空气炸锅”……π0.7能够精准地跟随这些实时指令,成功完成整个任务。

Physical Intelligence研究员、斯坦福大学计算机科学博士生Lucy Shi透露,早期的一个空气炸锅实验成功率只有5%,但在花了大约半小时优化提示工程(prompt engineering)后,成功率跃升至95%。“有时失败模式不在机器人或模型上,”她说,“而在于我们不擅长提示工程。”

这一现象让人不禁联想到大语言模型的“涌现”能力:就像GPT-2能写出关于“安第斯山脉独角兽”的奇怪故事一样,π0.7也能将从未一起出现过的技能重新组合。

Physical Intelligence联合创始人、UC Berkeley教授Sergey Levine评价道:“它到底从哪里学会空气炸锅是什么?这很难追溯。但看到机器人领域出现这种情况,真的很特别。”

指令遵循成功率

四、π0.7的技术核心:5B参数、异构数据与跨任务泛化

π0.7模型架构概览:

π0.7是一个参数量约50亿(5B)的视觉-语言-动作模型(VLA),其核心组件包括:

1、视觉-语言骨干网络:基于Gemma3 4B模型(含4亿参数的视觉编码器),负责处理多视角图像、语言指令和机器人本体感知信息。

2、动作专家模块:一个8.6亿参数的Transformer,采用流匹配(Flow Matching)目标生成连续动作,输出长度为50步的动作块(action chunk)。

3、记忆机制:沿用MEM(多尺度具身记忆,Multi-scale Embodied Memory)架构,对历史观测进行时空压缩,使模型能处理变长的历史帧。

4、多模态上下文:训练时模型接受四种额外提示——子任务语言指令、子目标图像(subgoal image)、片段元数据(episode metadata)和控制模式(关节空间或末端执行器控制)。训练时每种提示会随机丢弃一部分,使模型在推理时能灵活组合使用。

开箱即用性能对比: 展示π0.7与π0.6*专家模型在浓缩咖啡、盒子搭建、衣物折叠等任务上的成功率和吞吐量对比

元数据消融实验结果

五、能力突破拐点已至,三大局限仍待突破

尽管π0.7取得了令人瞩目的成果,但研究团队并没有回避其局限性。

首先,π0.7目前还无法仅凭一个高层次的指令自主执行复杂的多步骤任务。

“你不能告诉它,‘嘿,去给我烤些面包片’,”Sergey Levine坦言。“但如果你逐步引导它——‘对于烤面包机,打开这个部分,按下那个按钮,这样做’——那么它实际上往往能做得很好。”也就是说,对于长时程、多阶段的新任务,仍然需要人类通过语言进行“指导”或训练一个高层策略来分解子任务。

其次,机器人领域缺乏标准化的基准测试,这使得外部验证变得困难。

Physical Intelligence主要依靠与自家前代模型的对比,以及内部设计的一系列评分规则(如削蔬菜皮的完成百分比、折叠衣物的质量评分)。不同实验室之间的任务和环境差异很大,难以直接比较。

第三,也是根本性的问题:语言模型有整个互联网可以学习,而机器人没有。

尽管π0.7也使用了网络预训练、人类视频等数据,但物理世界的交互数据仍然稀缺且昂贵。研究者承认,对于某些任务,零样本泛化的成功率(60-80%)仍然低于分布内任务(超过90%)。未来需要更高效的数据利用方法,例如利用π0.7本身的可引导性进行自主强化学习。

此外,由于训练数据集规模巨大且内容庞杂,研究者往往难以确切知道某个能力究竟来自哪个具体片段。例如,空气炸锅的知识可能来自那两个片段,也可能来自网络上无数张厨房图片的预训练。这种“黑箱”特性与大型语言模型如出一辙,但也意味着真正的组合泛化(compositional generalization)正在发生:模型不是在检索记忆,而是在重新混合。

Levine回忆起当年GPT-2生成“安第斯山脉独角兽”故事时的震撼:“它到底从哪里学到秘鲁的独角兽?那是非常奇怪的组合。现在在机器人领域看到这种情况,真的很特别。”

批评者可能会指出,机器人演示的任务看起来不如“后空翻”那样酷炫。但Levine反驳说,泛化本身看起来总是不如精心编排的特技表演那么戏剧化——但它要有用得多。

数据扩展性曲线:左图显示有元数据时,即使在数据质量下降的情况下,π0.7的性能仍能随数据量增加而持续提升;右图显示高任务多样性数据对泛化性能的关键贡献

结语:组合泛化实现突破,通用机器人“大脑”将至

π0.7的发布,标志着机器人基础模型从“死记硬背”走向“组合泛化”的初步突破。它能够在零样本下完成空气炸锅烹饪、跨具身折叠衣物等从未见过的任务,性能媲美人类专家和RL微调专用模型。这背后是多样化上下文提示、元数据条件化(conditioning on metadata)和超大规模异构数据训练的共同作用。

如今,物理智能的“GPT时刻”似乎也在悄然临近。Physical Intelligence已融资超10亿美元,最新估值达56亿美元,并正洽谈新一轮可能将其推至110亿美元的融资。

当然,也有人对此持保留态度,认为π0.7的跨具身能力目前仅限于夹爪操作,尚未涉及更复杂的全身控制,但这类质疑并未掩盖多数人对该方向的乐观预期。

尽管其仍有诸多限制:无法自主完成长链条任务、缺乏标准化评测、数据依赖性依然存在……但他们的研究成果已经向世界证明:一个可引导、可教会、可迁移的通用机器人“大脑”,不再是科幻。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
主流AI IDE的token成本爆炸?试试登上GitHub日榜的Claude Context..
总结来说,纯grep方案主要有三大问题:信息过载:现代代码库动辄数万文件..
郑州GEO优化:珍岛集团如何助力企业抢占AI搜索先机
随着生成式AI技术的快速发展,企业营销正在经历一场深刻变革。截止2025年..
甚好AI助手V1.0产品发布——企业 ERP 的全场景智能交互助手..
#甚好AI助手V1.0正式版于2026年4月正式发布#作为企业 ERP 全场景智能交互..
Siri将对标ChatGPT,进化为完整的聊天机器人,誓要摘掉“人工智障”的帽子..
安徽交通广播2026-01-26 13:16:32据白鹿视频,1月26日,爆料称苹果计划在..
从2年到10年,行业大佬也说不准机器人的chatGPT时刻|2026博鳌论坛..
来源:凤凰网财经《公司研究院》作者:杨诗涵眼下,人们对于机器人的态度..
从GPT-6到人形机器人,一场技术与商业的双重革命
一场迟到但终将到来的革命2026年4月的第二周,全球科技圈被三条重磅消息..
优必选WalkerS2打工记:广东机器人迎ChatGPT时刻
南方财经记者郑康喜 实习生王泽南 广州报道你能想象,未来的工厂里是一群..
对话英伟达业务副总裁:机器人的“ChatGPT时刻”正在到来..
“世界基础模型学习世界的方式是基于物理定律而非语言规律。Cosmos开源,..
2年、5年和10年,人形机器人的“ChatGPT时刻”何时到来?..
中新经纬3月25日电 (薛宇飞 王玉玲)“你们觉得人形机器人的‘ChatGPT时刻..
关于作者
天外天(普通会员)
文章
1951
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105913

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索